Pandas GroupBy : Quand dois-je utiliser `count()` plutôt que `size()` ?-Tutoriel Python-php.cn

Pandas GroupBy : Quand dois-je utiliser `count()` plutôt que `size()` ?

Patricia Arquette

Libérer： 2024-12-02 02:35:11

original

705 Les gens l'ont consulté

Pandas GroupBy: When Should I Use `count()` vs. `size()`?

Comprendre la différence entre la taille et le nombre dans Pandas

Dans Pandas, les opérations groupby fournissent des outils puissants pour l'exploration et l'agrégation des données. Parmi les opérations groupby couramment utilisées figurent le nombre et la taille. Comprendre leur distinction est crucial pour analyser efficacement vos données.

compte par rapport à la taille

L'opération de comptage compte le nombre de valeurs non nulles au sein d'un groupe. En revanche, l’opération de taille compte toutes les valeurs, y compris les valeurs NaN. Cette différence devient évidente lorsque vous travaillez avec des ensembles de données contenant des valeurs manquantes.

Par exemple, considérons le DataFrame suivant :

df = pd.DataFrame({'a':[0,0,1,2,2,2], 'b':[1,2,3,4,np.NaN,4], 'c':np.random.randn(6)})

Copier après la connexion

Si nous regroupons par colonne « a » et appliquons le nombre à la colonne « b ' :

print(df.groupby(['a'])['b'].count())

Copier après la connexion

Nous obtenons le résultat suivant :

a
0    2
1    1
2    2
Name: b, dtype: int64

Copier après la connexion

Cela montre qu'il y a deux des valeurs non nulles pour le groupe 0, une pour le groupe 1 et deux pour le groupe 2.

Par contre, si on utilise size:

print(df.groupby(['a'])['b'].size())

Copier après la connexion

On obtient :

a
0    2
1    1
2    3
dtype: int64

Copier après la connexion

Dans ce cas, le résultat inclut la valeur NaN dans le groupe 2, indiquant que la taille prend en compte toutes les valeurs.

Par conséquent, il devient essentiel de choisir entre le nombre et la taille en fonction du contexte spécifique et de l'analyse souhaitée. Si vous souhaitez exclure les valeurs nulles de votre décompte, utilisez count. Si vous devez prendre en compte toutes les valeurs, quelle que soit leur présence ou leur absence, utilisez la taille.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!