> 일반적인 문제 > 아파치 스파크가 무슨 뜻인가요?

아파치 스파크가 무슨 뜻인가요?

藏色散人
풀어 주다: 2019-08-02 13:18:10
원래의
3852명이 탐색했습니다.

아파치 스파크가 무슨 뜻인가요?

Apache Spark는 무엇을 의미하나요?

Apache Spark는 원래 Matei Zaharia가 University of California, Berkeley에서 박사 학위 논문의 일부로 개발한 강력한 오픈 소스 처리 엔진입니다. Spark의 첫 번째 버전은 2012년에 출시되었습니다.

Apache Spark는 반구조적, 구조적, 스트리밍, 기계 학습이나 데이터 과학 등 다양하고 복잡한 데이터 문제를 해결할 수 있는 빠르고 사용하기 쉬운 프레임워크입니다. 또한 250개 이상의 조직에서 1,000명 이상의 기여자가 있고 전 세계 570개 이상의 위치에 300,000명 이상의 Spark Meetup 커뮤니티 회원이 있는 빅 데이터 분야 최대 오픈 소스 커뮤니티 중 하나가 되었습니다.

아파치 스파크란 무엇인가요?

Apache Spark는 오픈 소스의 강력한 분산 쿼리 및 처리 엔진입니다. MapReduce의 유연성과 확장성을 제공하지만 훨씬 더 빠른 속도를 제공합니다. 즉, 데이터가 메모리에 저장될 때 Apache Hadoop보다 100배 빠르고 디스크에 액세스할 때 최대 10배 빠릅니다.

Apache Spark를 사용하면 사용자는 데이터를 읽고, 변환하고, 집계하고, 복잡한 통계 모델을 쉽게 훈련하고 배포할 수 있습니다. Java, Scala, Python, R 및 SQL은 모두 Spark API에 액세스할 수 있습니다.

Apache Spark를 사용하면 애플리케이션을 구축하거나 클러스터에 배포할 라이브러리로 패키징하거나 노트북(예: Jupyter, Spark-Notebook, Databricks 노트북 및 Apache Zeppelin)을 통해 대화형으로 빠른 분석을 수행할 수 있습니다.

Apache Spark는 Python의 pandas나 R 언어의 data.frame 또는 data.tables를 사용해 본 데이터 분석가, 데이터 과학자 또는 연구자에게 친숙할 많은 라이브러리를 제공합니다. Spark DataFrame이 pandas 또는 data.frame, data.tables 사용자에게 친숙하게 느껴지더라도 여전히 몇 가지 차이점이 있으므로 너무 많이 기대하지 마십시오. SQL에 대한 배경 지식이 더 많은 사용자는 언어를 사용하여 데이터를 형성할 수도 있습니다.

또한 Apache Spark는 기계 학습을 위한 MLlib 및 ML, 그래프 처리를 위한 GraphX ​​​​및 GraphFrames, Spark Streaming(DStream 및 Structured) 등 이미 구현 및 조정된 여러 가지 알고리즘, 통계 모델 및 프레임워크를 제공합니다. Spark를 사용하면 사용자는 이러한 라이브러리를 동일한 애플리케이션에 자유롭게 결합할 수 있습니다.

Apache Spark는 로컬 노트북에서 편리하게 실행되며 로컬 클러스터나 클라우드에서 YARN 또는 Apache Mesos를 통해 독립형 모드로 쉽게 배포할 수도 있습니다. HDFS, Apache Cassandra, Apache HBase 및 S3를 포함하되 이에 국한되지 않는 다양한 데이터 소스에서 읽고 쓸 수 있습니다.

아파치 스파크가 무슨 뜻인가요?

위 내용은 아파치 스파크가 무슨 뜻인가요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿