Pandas データフレーム内の用語数によるグループ化
問題:
次のデータフレームが与えられたとします。次の列: id、group、および term。目標は、ID とグループの一意の組み合わせごとに各用語の出現数を判断することです。
解決策:
ループの使用を避けるには、groupby とPandas のサイズ関数:
groupby 関数は、指定された列 (id、group、および一方、size 関数は各組み合わせの出現をカウントします。 unstack 関数は、カウントが行列状に配置された、より視覚的に魅力的なテーブルを生成します。
結果は、最初の 2 つのレベルが ID とグループの組み合わせを表し、3 番目のレベルが複数のインデックス列を含むテーブルになります。という用語に相当します。テーブルの各セルには、対応する ID とグループに対して特定の用語が出現する回数が表示されます。
タイミング:
大規模なデータセットの場合 (例: 1,000,000 行) 、パフォーマンスは優れています:
前述のアプローチを使用すると、経過時間は約1秒です。
以上がPandas DataFrame 内のグループ内の用語の出現を効率的にカウントするにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。