빅데이터 학습 루트-일반적인 문제-php.cn

빅 데이터 학습 경로

java(Java se,[mysql])

Linux(셸, 동시성 아키텍처, lucene, solr)

Hadoop(Hadoop, HDFS, Mapreduce, Yarn, Hive , hbase, sqoop, Zookeeper, flume)

기계 학습(R, mahout)

Storm(Storm, kafka, redis)

Spark(scala, Spark, Spark Core, Spark SQL, Spark Streaming, Spark mllib, Spark Graphx) )

Python(python, Spark Python)(추천 학습: Python 동영상 튜토리얼)

컴퓨팅 플랫폼(docker, kvm, openstack)

용어 설명

초보자가 주의할 점 빅데이터를 배우는 일이 많지만, 어찌 됐든 빅데이터 업계에 입문하기로 결정했으니 우여곡절만 잘 챙기세요. 원래 의도를 잊지 말라. 그러면 반드시 성공할 것이라는 말이 있듯이, 빅데이터를 배울 때 가장 필요한 것은 인내이다.

javase 기본 [mysql 포함], javaee가 아닌 javase임을 참고해주세요. 빅 데이터 엔지니어에게는 javaweb에 대한 지식이 필요하지 않습니다

Linux

lucene: 전체 텍스트 검색 엔진의 아키텍처

solr: 구성 가능하고 확장 가능하며 쿼리를 구현하는 lucene 기반의 전체 텍스트 검색 서버 성능이 최적화되었으며 포괄적인 기능 관리 인터페이스가 제공되었습니다.

Hadoop

HDFS: NameNode, DataNode를 포함한 분산 스토리지 시스템. NameNode: 메타데이터, DataNode. DataNode: 데이터를 저장합니다.

yarn: 본질적으로 Hadoop의 처리 및 분석 메커니즘인 MapReduce의 조정 메커니즘으로 이해될 수 있으며 ResourceManager와 NodeManager로 구분됩니다.

MapReduce: 프로그램 작성을 위한 소프트웨어 프레임워크입니다.

Hive: 데이터 웨어하우스는 SQL로 쿼리할 수 있으며 Map/Reduce 프로그램을 실행할 수 있습니다. 동향이나 웹사이트 로그를 계산하는 데 사용되며, 결과를 반환하는 데 시간이 오래 걸리므로 실시간 쿼리에는 사용해서는 안 됩니다.

HBase: 데이터베이스. 빅데이터의 실시간 조회에 매우 적합합니다. Facebook은 Hbase를 사용하여 메시지 데이터를 저장하고 메시지의 실시간 분석을 수행합니다.

ZooKeeper: 대규모 분산을 위한 안정적인 조정 시스템입니다. 여러 NameNode 및 활성 대기 전환과 같은 Hadoop의 분산 동기화는 Zookeeper에 의해 구현됩니다.

Sqoop: 데이터베이스를 서로 전송하고, 관계형 데이터베이스와 HDFS를 서로 전송합니다.

Mahout: 확장 가능한 기계 학습 및 데이터 마이닝 라이브러리. 추천 마이닝, 집계, 분류, 빈번한 항목 집합 마이닝에 사용됩니다.

Chukwa: HDFS 및 Map/Reduce 프레임워크를 기반으로 구축된 대규모 분산 시스템을 모니터링하는 오픈 소스 수집 시스템입니다. 결과를 표시, 모니터링 및 분석합니다.

Ambari: 웹 기반의 친숙한 인터페이스인 Hadoop 클러스터를 구성, 관리 및 모니터링하는 데 사용됩니다.

Cloudera

Cloudera Manager: 관리 모니터링 진단 통합

Cloudera CDH: (Apache Hadoop을 포함한 Cloudera의 배포판) Cloudera는 Hadoop에 해당 변경 사항을 적용했으며 배포 버전을 CDH라고 합니다.

Cloudera Flume: 데이터 수집을 위해 로그 시스템의 다양한 데이터 전송자를 사용자 정의할 수 있도록 지원하는 로그 수집 시스템입니다.

Cloudera Impala: Apache Hadoop의 HDFS 및 HBase에 저장된 데이터에 대한 직접 쿼리 및 대화형 SQL을 제공합니다.

Clouderahue: Hui ui, hui 서버, hui db를 포함한 웹 관리자. Hue는 모든 CDH 구성 요소에 대한 셸 인터페이스 인터페이스를 제공하며 mr은 Hue로 작성할 수 있습니다.

Machine Learning/R

R: 통계 분석 및 그래픽을 위한 언어 및 운영 환경, 현재 Hadoop-R

mahout: 클러스터링 및 분류, 추천 필터링을 포함하여 기계 학습 분야의 기존 알고리즘의 확장 가능한 구현을 제공합니다. , 빈번한 하위 항목 마이닝 등을 수행하며 Hadoop을 통해 클라우드로 확장할 수 있습니다.

storm

Storm: 실시간 분석, 온라인 기계 학습, 정보 흐름 처리, 연속 컴퓨팅, 분산 RPC, 실시간 처리에 사용할 수 있는 분산형 내결함성 실시간 스트리밍 컴퓨팅 시스템입니다. 메시지 및 데이터베이스 업데이트.

Kafka: 소비자 규모 웹사이트에서 모든 작업 스트리밍 데이터(탐색, 검색 등)를 처리할 수 있는 처리량이 높은 분산 게시-구독 메시징 시스템입니다. Hadoop의 로그 데이터 및 오프라인 분석과 비교하여 실시간 처리가 가능합니다. 현재 Hadoop의 병렬 로딩 메커니즘은 온라인과 오프라인 메시지 처리를 통합하는 데 사용됩니다.

Redis: C 언어로 작성되었으며 네트워크를 지원하며 메모리 기반 및 영구화가 가능한 로그 유형의 키-값 데이터베이스입니다.

Spark

Scala: Java와 유사한 완전한 객체 지향 프로그래밍 언어입니다.

jblas: 빠른 선형 대수학 라이브러리(JAVA). ATLAS ART 구현은 행렬 계산의 사실상 업계 표준인 BLAS 및 LAPACK을 기반으로 하며 모든 계산 절차에 고급 인프라를 사용하므로 속도가 매우 빠릅니다.

Spark: Spark는 Scala 언어로 구현된 Hadoop MapReduce와 유사한 일반적인 병렬 프레임워크입니다. Hadoop MapReduce의 장점 외에도 MapReduce와는 달리 작업의 중간 출력 결과를 메모리에 저장할 수 있으므로 HDFS를 읽고 쓸 필요가 없으므로 Spark는 데이터 마이닝 및 기계 학습과 같은 반복이 필요한 MapReduce 알고리즘에 더 적합할 수 있습니다. Mesos를 사용하는 타사 클러스터 프레임워크는 Hadoop 파일 시스템과 병렬로 작동할 수 있습니다.

Spark SQL: Apache Spark 빅 데이터 프레임워크의 일부로 구조화된 데이터 처리에 사용할 수 있으며 SQL과 유사한 Spark 데이터 쿼리를 수행할 수 있습니다.

Spark Streaming: 구축된 실시간 솔루션 Spark 컴퓨팅 프레임워크는 Spark의 빅 데이터 스트리밍 데이터 처리 기능을 확장합니다.

Spark MLlib: MLlib는 일반적으로 사용되는 기계 학습 알고리즘을 위한 Spark의 구현 라이브러리입니다. 현재(2014.05) 이진 분류, 회귀, 클러스터링 및 협업 필터링을 지원합니다. 또한 낮은 수준의 경사하강법 최적화 기본 알고리즘도 포함되어 있습니다. MLlib는 jblas 선형 대수 라이브러리에 의존하고 jblas 자체는 원격 Fortran 프로그램에 의존합니다.

Spark GraphX: GraphX는 Spark의 그래프 및 그래프 병렬 컴퓨팅을 위한 API로 Spark 위에 원스톱 데이터 솔루션을 제공할 수 있으며 완전한 그래프 컴퓨팅 파이프라인 세트를 완성할 수 있습니다. 편리하고 효율적으로 운영됩니다.

Fortran: 과학 및 엔지니어링 컴퓨팅 분야에서 널리 사용되는 최초의 고급 컴퓨터 프로그래밍 언어입니다.

BLAS: 선형 대수 연산을 위해 이미 작성된 다수의 프로그램이 포함된 기본 선형 대수 서브루틴 라이브러리입니다.

LAPACK: 선형 방정식, 선형 최소 제곱 문제, 고유값 문제 및 특이값 문제 해결과 같은 과학 및 공학 계산에서 가장 일반적인 수치 선형 대수 문제 해결을 포함하는 잘 알려진 개방형 소프트웨어가 기다리고 있습니다.

ATLAS: BLAS 선형 알고리즘 라이브러리의 최적화된 버전입니다.

Spark Python: Spark는 스칼라 언어로 작성되었지만 홍보와 호환성을 위해 Java 및 Python 인터페이스가 제공됩니다.

Python

Python: 객체 지향 해석 컴퓨터 프로그래밍 언어입니다.

클라우드 컴퓨팅 플랫폼

Docker: 오픈 소스 애플리케이션 컨테이너 엔진

kvm： (키보드 비디오 마우스)# 🎜🎜#

openstack: 오픈 소스 클라우드 컴퓨팅 관리 플랫폼 프로젝트