Apache Spark とはどういう意味ですか?
Apache Spark は、もともと Matei Zaharia によって開発された強力なオープンソース処理エンジンです。カリフォルニア大学バークレー校での博士論文の一部として開発されました。 Spark の最初のバージョンは 2012 年にリリースされました。
Apache Spark は、半構造化、構造化、ストリーミング、機械学習やデータ サイエンスなど、さまざまな複雑なデータの問題を解決できる、高速で使いやすいフレームワークです。また、250 以上の組織から 1,000 人以上の寄稿者が参加し、世界中の 570 以上の場所に 300,000 人以上の Spark Meetup コミュニティ メンバーが所属する、ビッグ データにおける最大のオープンソース コミュニティの 1 つとなっています。
Apache Spark とは何ですか?
Apache Spark は、オープンソースの強力な分散クエリおよび処理エンジンです。 MapReduce は、MapReduce の柔軟性とスケーラビリティを備えながら、速度が大幅に向上しています。データがメモリに保存される場合は Apache Hadoop より 100 倍、ディスクにアクセスする場合は最大 10 倍高速です。
Apache Spark を使用すると、ユーザーはデータを読み取り、変換、集約し、複雑な統計モデルを簡単にトレーニングして展開できます。 Java、Scala、Python、R、SQL はすべて Spark API にアクセスできます。
Apache Spark は、クラスターにデプロイするライブラリとしてパッケージ化するか、Jupyter、Spark-Notebook、Databricks ノートブック、Apache Zeppelin クイック分析などのノートブックを介して対話的に実行するアプリケーションの構築に使用できます。
Apache Spark は、Python の pandas や R 言語の data.frame または data.tables を使用したことのあるデータ アナリスト、データ サイエンティスト、または研究者にとって馴染みのあるライブラリを多数提供します。 Spark DataFrame は、pandas や data.frame、data.tables のユーザーにとっては馴染みのあるものですが、それでもいくつかの違いがあるため、あまり期待しないでください。 SQL の知識が豊富なユーザーは、この言語を使用してデータを形成することもできます。
さらに、Apache Spark は、いくつかの実装および調整されたアルゴリズム、統計モデルおよびフレームワークも提供します。機械学習用の MLlib と ML、グラフ処理用の GraphX と GraphFrames、および Spark ストリーミング (DStream および Structured) です。 Spark を使用すると、ユーザーは同じアプリケーション内でこれらのライブラリを自由に組み合わせることができます。
Apache Spark はローカルのラップトップで便利に実行でき、ローカル クラスターまたは YARN または Apache Mesos を介してクラウドにスタンドアロン モードで簡単にデプロイできます。 HDFS、Apache Cassandra、Apache HBase、S3 を含む (ただしこれらに限定されない) さまざまなデータ ソースからの読み取りと書き込みが可能です。
以上がApache Spark どういう意味ですかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。