DataFrame 列内の値の頻度を調べる
データ分析では、特定の列内の値の出現頻度をカウントすることが必要になることがよくあります。データフレームの。これを実現するために、pandas は複数の関数を提供します。
一般的なアプローチの 1 つは、value_counts() メソッドを使用することです。たとえば、DataFrame があるとします:
category | |
---|---|
cat | a |
cat | b |
cat | a |
value_counts() を使用すると、一意の値とその頻度が返されます:
df = pd.DataFrame({'category': ['cat a', 'cat b', 'cat a']}) df['category'].value_counts()
出力:
category | freq |
---|---|
cat a | 2 |
cat b | 1 |
別のメソッドgroupby() 関数と count() 関数を使用することです。このアプローチでは、DataFrame を対象の列ごとにグループ化し、グループ内の各値の出現回数をカウントします。
df.groupby('category').count()
出力:
category | count |
---|---|
cat a | 2 |
cat b | 1 |
最後に、頻度を元の DataFrame では、transform() 関数を使用して、頻度を含む新しい列を作成できます:
df['freq'] = df.groupby('category')['category'].transform('count')
これにより、次のようになります。 DataFrame:
category | freq | |
---|---|---|
cat | a | 2 |
cat | b | 1 |
cat | a | 2 |
これらのメソッドを活用することで、データ アナリストは DataFrame 列の値の頻度を効率的に分析し、意思決定のための貴重な洞察を得ることができます。
以上がPandas DataFrame 列の値の頻度を効率的にカウントするにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。