Pandas GroupBy.agg() を使用した同じ列での複数の集計
Pandas を使用する場合、多くの場合、複数の集計を実行する必要があります。同じ列です。 agg() メソッドで同じ列を複数回指定するという単純なアプローチは直感的ではありますが、構文的には正しくありません。このため、GroupBy.agg() を使用してさまざまな集計関数を単一の列に効果的かつ簡潔に適用する方法が疑問になります。
解決策
現在 2022-06- 20、複数の集計には辞書を使用することをお勧めします。構文:
df.groupby('dummy').agg({ 'returns': {'Mean': np.mean, 'Sum': np.sum} })
この例では、「returns」列は、mean 関数と sum 関数の両方で集計されます。結果の DataFrame には、それぞれの集計を示す 2 つの新しい列「Mean」と「Sum」が含まれます。
歴史的メモ
辞書の採用前構文では、複数の場合に 2 つの代替方法がありました。集計:
df.groupby('dummy').agg({'returns': [np.mean, np.sum]})
このアプローチでは、関数をリストとして直接 agg() に渡します。 DataFrame には、平均集計と合計集計の結果をそれぞれ含む 2 つの新しい列が含まれます。
df.groupby('dummy').agg({'returns': {'f1': np.mean, 'f2': np.sum}})
リストのアプローチと同様に、関数は辞書内の辞書として渡されます。内部ディクショナリのキーは関数名を指定し、値は集計関数です。 DataFrame には、指定された関数名ごとに列が含まれます。
以上がPandas GroupBy.agg() を使用して 1 つの列で複数の集計を実行する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。