Apache Sparkは、カリフォルニア大学バークレー校の AMPLab によって元々開発されたオープンソースのクラスター コンピューティング フレームワークです。作業の実行後に中間データをディスクに保存する Hadoop の MapReduce と比較して、Spark はインメモリ コンピューティング テクノロジを使用して、データがハード ディスクに書き込まれる前にメモリ内で操作を分析および実行します。
Spark は、メモリ内でプログラムを Hadoop MapReduce より 100 倍高速に実行できます。ハードディスク上でプログラムを実行する場合でも、Spark は 10 倍高速に実行できます。 Spark を使用すると、ユーザーはデータをクラスター ストレージにロードして複数回クエリできるため、機械学習アルゴリズムに最適です。
Spark を使用するには、クラスター管理者と分散ストレージ システムが必要です。 Spark は、スタンドアロン モード (ローカル Spark クラスター)、Hadoop YARN または Apache Mesos クラスター管理をサポートします。
分散ストレージに関しては、Spark は HDFS、Cassandra、OpenStack Swift、Amazon S3 などのインターフェイスを搭載できます。 Spark は擬似分散ローカル モードもサポートしていますが、これは通常、分散ストレージ システムをローカル ファイル システムに置き換える開発またはテストにのみ使用されます。このような場合、Spark は 1 台のマシン上の各 CPU コアのみを使用してプログラムを実行します。
2014 年には、465 名を超える貢献者が Spark 開発に投資し、Apache Software Foundation およびビッグ データの多くのオープン ソース プロジェクトの中で最も活発なプロジェクトとなりました。
Apache 関連の知識の詳細については、Apache 使用法チュートリアル列をご覧ください。
以上がApache Sparkとは何ですかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。