大規模な Pandas データフレームの分割
Pandas で大規模なデータセットを操作する場合、多くの場合、処理または処理のためにデータフレームを小さなチャンクに分割する必要があります。分布。ただし、np.split を直接使用すると、配列を均等に分割できない場合にエラーが発生する可能性があります。
np.array_split の使用
np.array_split 関数は、さらに多くの機能を提供します。データフレームを含む配列をセクションに分割するための柔軟なアプローチ。 np.split とは異なり、軸を均等に分割しないセクションの数を整数にすることができます。
423,244 行を含むデータフレームを使用した次の例を考えてみましょう。これを 4 つのグループに分割します。
<code class="python">In [1]: import pandas as pd In [2]: df = pd.DataFrame({ 'A': ['foo', 'bar', 'foo', 'bar'], 'B': ['one', 'one', 'two', 'three'], 'C': np.array([rand() for i in range(4)]), 'D': np.array([rand() for i in range(4)]) }) In [3]: print(df)</code>
np.array_split を使用してデータフレームを 4 つのグループに分割するには、次のことができます。
<code class="python">In [4]: import numpy as np In [5]: sections = np.array_split(df, 4)</code>
セクション変数には、それぞれ約 105811 行を含む 4 つのデータフレームのリストが含まれます。
大規模なデータフレームを扱う場合は、さまざまな分割方法の計算コストとメモリ要件を考慮することが重要です。 np.array_split は、配列を不等分割セクションに分割するための多用途かつ効率的なソリューションを提供します。
以上が大きなパンダのデータフレームを不均等なセクションに効率的に分割するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。