> 일반적인 문제 > 빅데이터에 대해 무엇을 배워야 할까요?

빅데이터에 대해 무엇을 배워야 할까요?

藏色散人
풀어 주다: 2020-09-14 14:52:09
원래의
77144명이 탐색했습니다.

빅데이터는 방대한 양의 데이터를 저장, 계산, 통계, 분석하는 일련의 처리 방법으로, 처리되는 데이터의 양은 대개 TB 수준이거나 심지어 PB, EB 수준의 데이터로 기존 데이터 처리 방법으로는 처리할 수 없습니다. 분산 컴퓨팅, 고동시성 처리, 고가용성 처리, 클러스터링, 실시간 컴퓨팅 등의 기술을 포함하며 현재 IT 분야에서 가장 널리 사용되는 IT 기술을 집약합니다.

빅데이터에 대해 무엇을 배워야 할까요?

빅데이터에 대해 배우려면 무엇이 필요합니까?

1. Java 프로그래밍 기술

Java 프로그래밍 기술은 매우 높은 크로스 플랫폼 기능을 갖춘 강력한 형식의 언어입니다. 애플리케이션 등은 빅데이터 엔지니어들이 가장 선호하는 프로그래밍 도구입니다. 따라서 빅데이터를 잘 배우고 싶다면 자바의 기본을 익히는 것은 필수입니다!

2.Linux 명령어

빅데이터 개발을 위해서는 일반적으로 Linux 환경에서는 Linux 운영 체제에 비해 Windows 운영 체제는 폐쇄형 운영 체제이며 오픈 소스 빅데이터 소프트웨어가 매우 제한적이므로 빅데이터 개발 관련 작업을 수행하려면 다음과 같은 작업이 필요합니다. Linux의 기본 작동 명령을 마스터하십시오.

3. Hadoop

Hadoop은 HDFS와 MapReduce가 핵심이며, MapReduce는 대용량 데이터에 대한 계산을 제공합니다. 또한 Hadoop 클러스터, Hadoop 클러스터 관리, YARN 및 Hadoop 고급 관리 등 관련 기술 및 운영도 마스터해야 합니다!

4. Hive

Hive는 구조화된 데이터 파일을 매핑할 수 있는 Hadoop 기반 데이터 웨어하우스 도구입니다. SQL 문을 MapReduce 작업으로 변환하여 작업할 수 있는 간단한 SQL 쿼리 기능을 제공합니다. 이는 데이터 웨어하우스의 통계 분석에 매우 적합합니다. Hive의 경우 설치, 애플리케이션 및 고급 작업을 마스터해야 합니다.

5. Avro와 Protobuf

Avro와 Protobuf는 모두 다양한 데이터 구조 유형을 제공할 수 있는 데이터 직렬화 시스템으로, 서로 다른 언어 간 상호 통신을 위한 데이터 교환 형식도 수행할 수 있습니다. 빅 데이터를 배우고 구체적인 사용법을 숙지해야 합니다.

6.ZooKeeper

ZooKeeper는 Hadoop과 Hbase의 중요한 구성 요소로, 분산 애플리케이션에 일관성 서비스를 제공하는 소프트웨어입니다. 제공되는 기능에는 구성 유지 관리, 도메인 이름 서비스, 분산 동기화, 구성 요소 서비스 등이 있습니다. 데이터 개발에서는 ZooKeeper의 일반적인 명령어와 기능 구현 방법을 숙지해야 합니다.

7. HBase

HBase는 일반적인 관계형 데이터베이스와 다르며, 신뢰성이 뛰어난 고성능 열 중심 데이터베이스입니다. , 확장 가능한 분산 스토리지 시스템, 빅 데이터 개발을 위해서는 HBase의 기본 지식, 애플리케이션, 아키텍처 및 고급 사용법을 숙지해야 합니다.

8.phoenix

phoenix는 HBase를 운영하기 위해 JDBC API를 기반으로 Java로 작성된 오픈 소스 SQL 엔진으로, 동적 컬럼, 해시 로딩, 쿼리 서버, 추적, 트랜잭션, 사용자 정의 함수, 보조 인덱스, 및 네임스페이스 매핑, 데이터 수집, 행 타임스탬프 열, 페이징 쿼리, 점프 쿼리, 보기 및 다중 테넌트 기능, 빅 데이터 개발에는 해당 원칙과 사용법을 숙지해야 합니다.

9. Redis

Redis는 memcached와 같은 키/값 저장소의 단점을 크게 보완한 시스템입니다. Java, C/C++, C#, PHP, JavaScript, Perl, Object-C, Python, Ruby, Erlang 및 기타 클라이언트를 제공하므로 사용하기 매우 편리합니다. 빅 데이터 개발에는 설치, 구성 및 관련 사용법을 숙지해야 합니다. Redis.

10. Flume

Flume은 대규모 로그를 수집, 집계 및 전송하기 위한 고가용성, 신뢰성이 높은 분산 시스템으로, 동시에 데이터 수집을 위해 로그 시스템에서 다양한 데이터 전송자를 사용자 정의할 수 있습니다. 간단히 데이터를 처리하고 다양한 데이터 수신자에게 쓰기(사용자 정의 가능) 빅데이터를 개발하려면 설치, 구성 및 관련 사용 방법을 숙지해야 합니다.

11. SSM

SSM 프레임워크는 Spring, SpringMVC, MyBatis의 세 가지 오픈 소스 프레임워크를 통합한 것으로 비교적 간단한 데이터 소스를 사용하는 웹 프로젝트용 프레임워크로 자주 사용됩니다. 빅 데이터 개발을 위해서는 Spring, SpringMVC, MyBatis의 세 가지 프레임워크를 각각 마스터한 후 SSM을 사용하여 통합 작업을 수행해야 합니다.

12.Kafka

Kafka는 처리량이 높은 분산 게시-구독 메시징 시스템입니다. 빅 데이터 개발 애플리케이션의 목적은 Hadoop의 병렬 로딩 메커니즘을 통해 온라인 및 오프라인 메시지 처리를 통합하고 이를 통해 실시간 메시지를 제공하는 것입니다. 클러스터. 빅데이터를 개발하려면 Kafka 아키텍처의 원리와 각 구성요소의 기능 및 사용법, 관련 기능의 구현을 숙지해야 합니다!

13.Scala

Scala는 빅데이터를 위한 중요한 프레임워크인 Spark입니다. 데이터 개발은 Scala 언어를 사용하여 설계됩니다. Spark 프레임워크를 잘 배우고 싶다면 Scala 기반이 필수적입니다. 따라서 빅데이터 개발에는 Scala 프로그래밍에 대한 기본 지식이 필요합니다.

14.Spark

Spark는 대규모 데이터 처리를 위해 설계된 빠르고 다양한 컴퓨팅 엔진으로, 다양한 데이터 세트와 다양한 성격의 데이터 소스에 대한 빅 데이터 처리 요구 사항을 관리하기 위한 포괄적이고 통합된 프레임워크를 제공합니다. Spark 기본 사항을 숙지해야 합니다. , SparkJob, Spark RDD, Spark 작업 배포 및 리소스 할당, Spark 셔플, Spark 메모리 관리, Spark 브로드캐스트 변수, Spark SQL, Spark Streaming 및 Spark ML 및 기타 관련 지식입니다.

15.Azkaban

Azkaban은 워크플로 내에서 일련의 작업과 프로세스를 특정 순서로 실행하는 데 사용할 수 있는 일괄 워크플로 작업 스케줄러입니다. Azkaban은 빅 데이터 작업 예약 및 빅 데이터 개발을 완료하는 데 사용할 수 있습니다. Azkaban의 관련 구성 및 문법 규칙을 마스터해야 합니다.

16.Python 및 데이터 분석

Python은 풍부한 라이브러리를 갖춘 객체 지향 프로그래밍 언어로, 사용하기 쉽고 널리 사용됩니다. 빅 데이터 분야에서도 주로 사용할 수 있습니다. 따라서 빅데이터 개발에는 특정 Python 지식이 필요합니다.

위 내용은 빅데이터에 대해 무엇을 배워야 할까요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿