ホームページ > バックエンド開発 > Python チュートリアル > Pandas GroupBy: `count()` と `size()` をいつ使用するか?

Pandas GroupBy: `count()` と `size()` をいつ使用するか?

Barbara Streisand
リリース: 2024-11-28 12:57:11
オリジナル
753 人が閲覧しました

Pandas GroupBy: When to Use `count()` vs. `size()`?

Pandas のサイズとカウントの区別を理解する

データ操作には、多くの場合、Pandas の groupby 関数を利用して、特定の基準に基づいてデータを集計することが含まれます。よく使用される 2 つの集計関数、count と size は、グループ化されたデータに対するさまざまな洞察を提供します。

groupby("x").count と groupby("x").size

カウントとサイズの基本的な違いは、欠損値の扱いにあります。 count は、欠損値 (NaN や None など) を除いた、グループ内の null 以外の値の数を計算します。一方、サイズは、欠損値が含まれているかどうかに関係なく、グループ内の観測値の合計数を計算します。

次の DataFrame について考えてみましょう。

df = pd.DataFrame({'a':[0,0,1,2,2,2], 'b':[1,2,3,4,np.NaN,4], 'c':np.random.randn(6)})
ログイン後にコピー

カウントとサイズを使用すると、以下:

df.groupby(['a'])['b'].count()

# Output:
# a  
# 0    2
# 1    1
# 2    2
# Name: b, dtype: int64

df.groupby(['a'])['b'].size()

# Output:
# a  
# 0    2
# 1    1
# 2    3
# dtype: int64  
ログイン後にコピー

ご覧のとおり、count はグループ 2 の欠損値を除外し、そのグループのカウントは 2 になります。対照的に、サイズには欠損値が含まれており、合計数は 3 になります。この違いは、欠損データを扱うときにこれらの関数の動作を理解することの重要性を強調しています。

以上がPandas GroupBy: `count()` と `size()` をいつ使用するか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート