Facebook が効率的なクエリエンジン Presto_PHP チュートリアルを開始-PHPチュートリアル-php.cn

Facebook が効率的なクエリエンジン Presto_PHP チュートリアルを開始

WBOY

リリース： 2016-07-13 10:38:45

オリジナル

1170 人が閲覧しました

Facebook本社で開催された開発者会議で、ソーシャルネットワーキング大手のエンジニアらは、自社開発した新しいクエリエンジンPrestoを使用して、既存の大規模な250PBデータウェアハウスの対話型分析を行っていることを明らかにした。

エンジニアの Martin Traverso 氏によると、850 人以上の Facebook エンジニアがこれを使用して、毎日 320TB 以上のデータをスキャンしています。これまで、当社の科学者やアナリストはデータ分析に Hive を利用していました。ただし、Hive はバッチ処理用に設計されています。しかし、データが増えるにつれて、Hive は私たちのニーズを満たすことができなくなりました。 Hive よりも高速なツールは他にもありますが、機能が制限されているか、大規模なデータウェアハウスを操作するには単純すぎるかのいずれかです。そして過去数か月間、私たちはこのギャップを埋めるために Presto を使用してきました。

Hive は、Facebook が数年前に Hadoop 専用に作成したデータウェアハウスツールです。主に MapReduce に動作を依存しているため、古くなるとその速度が増大するデータ要件に対応できなくなります。完全なデータセットを参照するには数分から数時間かかる可能性があり、これはまったく現実的ではありません。

Traverso 氏はまた、Presto を使用した単純なクエリには数百ミリ秒しかかからず、非常に複雑なクエリでも完了するまでに数分しかかかりません。メモリ内で実行され、ディスクには書き込まれません。

Facebook が効率的なクエリエンジン Presto_PHP チュートリアルを開始

Presto は Facebook 版の Cloudera Impala SQL クエリエンジン、または Hortonworks が Project Stinger で行っているものと同様に見えるかもしれませんが、これは Facebook の規模でより高速な操作を行うためにカスタマイズされたバージョンです。 Presto は他の商用製品と競合することはありませんが、すぐにビッグデータ業界を揺るがすでしょう。そしてFacebookは今秋、Prestoをオープンソースとしてリリースする予定だ。

Facebook のエンジニアリングマネージャーである Ravi Murthy 氏は、ユーザー数が増加し続けるにつれて、データウェアハウスも 4 年前の 4,000 倍に急速に成長していると述べました。マーシー氏はまた、今後数年でデータはエクサバイトに達すると述べた。したがって、このデータ規模に対応するには、多くのことを再考する必要がありました。

Presto はその 1 つであり、クエリ速度の向上に加えて、CPU 使用効率の点でも Hive よりも 7 倍効率的です。進行中のもう 1 つのプロジェクトは、Facebook のデータセンターの分析データスペースを削減することです。

Weibo の専門家は、Facebook が発表した最新のクエリエンジンである Presto についてどう思いますか?

ビッグデータピドン氏、EMC 中国研究所ビッグデータラボラトリーの元所長: Facebook の最新のインタラクティブビッグデータクエリシステム Presto は、Cloudera の Impala や Hortonworks の Stinger と同様、Facebook の急速に拡大する大規模データウェアハウスの高速クエリニーズを解決します。 Facebook は、エクサバイト規模のデータを対象とした新世代のビッグデータシステムを開発しています。Presto は、データウェアハウスの対話型クエリシステムの 1 つであり、大容量ストレージシステムも備えている必要があります。このレベルでは、考慮すべきデザインがたくさんあります。

Sina CTO 兼共同社長 Jack Xu Liangjie : ソーシャルネットワークとソーシャルメディアは、真のビッグデータ (ビッグデータ) プラットフォームを生み出しました。新浪微博も例外ではありません...

英国リーズ大学のコンピューターおよび言語学の研究者、および検索プロジェクトの博士研究員である vinW 氏: 1. Presto は秋にオープンソース化される予定です。 2. Hive よりも 7 倍高速です。 3. メモリに基づいています。

Launch_Bruce

: FaceBook は検索エンジンではないため、リアルタイムパフォーマンスに対する要求が高くなります。Hive が最初に起動されたとしても、それは一時的な手段にすぎません。これは Hadoop の遺伝子です。深く考えずにやみくもに開始された多くのプロジェクトは、最終的には Hadoop によって確実に困難になります。しかし明らかに、Hadoop の成功したエコシステムは多くの人々に害を及ぼすことになります。

テスライーロン

: さあ！ビッグデータは多くのビジネスチャンスを生み出します。特に、電子商取引プラットフォーム最大手のアリババや動画プラットフォーム最大手のYOKUとの連携に期待がかかる。さらに、Sina は Weibo 上の多くの人気アプリケーションに投資しており、Sina が研究開発、管理、販売でどのようにうまくいくかは後ほど見ていきます。

ビッグデータを運ぶヘンリー

: 私たちが約 5 年前にビッグデータ分析を行っていたとき、私たちの MPP 製品にはすでにこれらの戦略が組み込まれていました。当時、最大の問題はインターネット上のビッグデータでしたが、これらのスター企業はお金をかけて購入することを好まず、車輪を作ることだけを好みました。これは、車輪を再発明するのではなく、購入に喜んでお金を費やす通信顧客にとっては良いことです。英語から: gigaom.com

http://www.bkjia.com/PHPjc/735062.html