Pandas のサイズとカウントの区別を理解する
データ操作には、多くの場合、Pandas の groupby 関数を利用して、特定の基準に基づいてデータを集計することが含まれます。よく使用される 2 つの集計関数、count と size は、グループ化されたデータに対するさまざまな洞察を提供します。
groupby("x").count と groupby("x").size
カウントとサイズの基本的な違いは、欠損値の扱いにあります。 count は、欠損値 (NaN や None など) を除いた、グループ内の null 以外の値の数を計算します。一方、サイズは、欠損値が含まれているかどうかに関係なく、グループ内の観測値の合計数を計算します。
例
次の DataFrame について考えてみましょう。
df = pd.DataFrame({'a':[0,0,1,2,2,2], 'b':[1,2,3,4,np.NaN,4], 'c':np.random.randn(6)})
カウントとサイズを使用すると、以下:
df.groupby(['a'])['b'].count() # Output: # a # 0 2 # 1 1 # 2 2 # Name: b, dtype: int64 df.groupby(['a'])['b'].size() # Output: # a # 0 2 # 1 1 # 2 3 # dtype: int64
ご覧のとおり、count はグループ 2 の欠損値を除外し、そのグループのカウントは 2 になります。対照的に、サイズには欠損値が含まれており、合計数は 3 になります。この違いは、欠損データを扱うときにこれらの関数の動作を理解することの重要性を強調しています。
以上がPandas GroupBy: `count()` と `size()` をいつ使用するか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。