ホームページ > Java > &#&チュートリアル > Spark DataFrame で複雑なデータ構造を平坦化する方法

Spark DataFrame で複雑なデータ構造を平坦化する方法

Mary-Kate Olsen
リリース: 2024-10-25 08:46:28
オリジナル
1029 人が閲覧しました

How to Flatten Complex Data Structures in Spark DataFrames?

Spark データフレームで複雑なデータ構造を分割する方法

Spark データフレームでは、構造体やマップなどの複雑なデータ構造を使用して格納できます。ネストされたデータを効率的に処理します。ただし、個々の要素を直接操作するには、これらの構造体をフラット化することが必要になる場合があります。

ネストされた構造体のフラット化

構造体のネストされたフィールドを抽出するには、col関数は * ワイルドカード記号と組み合わせることができます。たとえば、次のデータフレーム スキーマについて考えてみましょう:

|-- data: struct (nullable = true)
 |    |-- id: long (nullable = true)
 |    |-- keyNote: struct (nullable = true)
 |    |    |-- key: string (nullable = true)
 |    |    |-- note: string (nullable = true)
 |    |-- details: map (nullable = true)
 |    |    |-- key: string
 |    |    |-- value: string (valueContainsNull = true)
ログイン後にコピー

この構造体をフラット化して新しいデータフレームを作成するには、次を使用します:

df.select(df.col("data.*"))
ログイン後にコピー

これにより、次のフラット化された構造を持つデータフレームが作成されます。

     |-- id: long (nullable = true)
     |-- keyNote: struct (nullable = true)
     |    |-- key: string (nullable = true)
     |    |-- note: string (nullable = true)
     |-- details: map (nullable = true)
     |    |-- key: string
     |    |-- value: string (valueContainsNull = true)
ログイン後にコピー

ネストされたマップの平坦化

同様に、次の構文を使用してネストされたマップを平坦化できます。

df.select(df.col("data.details").as("map_details"))
ログイン後にコピー

これにより、データフレームが作成されます。平坦化されたマップを「map_details」という名前の新しい列として使用します。列は次の構造になります:

     |-- map_details: map (nullable = true)
     |    |-- key: string
     |    |-- value: string (valueContainsNull = true)
ログイン後にコピー

以上がSpark DataFrame で複雑なデータ構造を平坦化する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート