Apache Beam は、さまざまなバッチおよびストリーム処理エンジンで実行できる統合プログラミング モデルを提供するオープンソースの分散データ処理フレームワークです。最近、Apache Beam の Go SDK に、PCollection から最初の N 行を選択するという非常に便利な機能が追加されました。この機能は、大規模なデータ セットをサンプリングしたり、すばやくプレビューしたりする必要があるシナリオに非常に役立ちます。この記事では、Apache Beam の Go SDK でこの機能を使用する方法を説明し、いくつかの実用的なコード例を示します。はじめましょう!
pcollection があり、そこから最大 n 行を選択する必要があります。 go を使用してデータフロー パイプラインを作成しようとしていますが、行き詰まっています。
リーリー上記のコードから、user.age に基づいて最初の 5 行を選択する必要があります。 パッケージの上部に同じ機能を持つリンクを見つけましたが、単一の要素 pcollection を返すと書かれています。違いはなんですか?
リーリー上記のように最初の5行を選択する関数を追加しましたが、[]main.user is not assign to main.user
pcollection をさらに処理する必要があるため、以前と同じ形式で pcollection が必要です。これは、top.largest 関数が単一要素 pcollection を返すためだと思われます。形式を変換する方法について何かアイデアはありますか?
最適な pcollection は []user
ですだから試してみてください...
リーリー以上がApache Beam は Go の PCollection から上位 N 行を選択しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。