Apache Sparkとは何ですか-Apache-php.cn

Apache Sparkとは何ですか

Apache Sparkは、カリフォルニア大学バークレー校の AMPLab によって元々開発されたオープンソースのクラスターコンピューティングフレームワークです。作業の実行後に中間データをディスクに保存する Hadoop の MapReduce と比較して、Spark はインメモリコンピューティングテクノロジを使用して、データがハードディスクに書き込まれる前にメモリ内で操作を分析および実行します。

Spark は、メモリ内でプログラムを Hadoop MapReduce より 100 倍高速に実行できます。ハードディスク上でプログラムを実行する場合でも、Spark は 10 倍高速に実行できます。 Spark を使用すると、ユーザーはデータをクラスターストレージにロードして複数回クエリできるため、機械学習アルゴリズムに最適です。

Spark を使用するには、クラスター管理者と分散ストレージシステムが必要です。 Spark は、スタンドアロンモード (ローカル Spark クラスター)、Hadoop YARN または Apache Mesos クラスター管理をサポートします。

分散ストレージに関しては、Spark は HDFS、Cassandra、OpenStack Swift、Amazon S3 などのインターフェイスを搭載できます。 Spark は擬似分散ローカルモードもサポートしていますが、これは通常、分散ストレージシステムをローカルファイルシステムに置き換える開発またはテストにのみ使用されます。このような場合、Spark は 1 台のマシン上の各 CPU コアのみを使用してプログラムを実行します。

2014 年には、465 名を超える貢献者が Spark 開発に投資し、Apache Software Foundation およびビッグデータの多くのオープンソースプロジェクトの中で最も活発なプロジェクトとなりました。

Apache 関連の知識の詳細については、Apache 使用法チュートリアル列をご覧ください。

以上がApache Sparkとは何ですかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。