Pandas GroupBy: Wann sollte „count()' vs. „size()' verwendet werden?-Python-Tutorial-php.cn

Pandas GroupBy: Wann sollte „count()' vs. „size()' verwendet werden?

Barbara Streisand

Freigeben： 2024-11-28 12:57:11

Original

753 Leute haben es durchsucht

Pandas GroupBy: When to Use `count()` vs. `size()`?

Den Unterschied zwischen Größe und Anzahl bei Pandas verstehen

Bei der Datenmanipulation wird häufig die Groupby-Funktion von Pandas verwendet, um Daten anhand bestimmter Kriterien zu aggregieren. Zwei häufig verwendete Aggregationsfunktionen, Anzahl und Größe, bieten unterschiedliche Einblicke in die gruppierten Daten.

groupby("x").count vs. groupby("x").size

Der grundlegende Unterschied zwischen count und size liegt in der Behandlung fehlender Werte. count berechnet die Anzahl der Nicht-Null-Werte innerhalb einer Gruppe, ohne fehlende Werte (z. B. NaN oder None). Andererseits berechnet die Größe die Gesamtzahl der Beobachtungen in einer Gruppe, unabhängig davon, ob sie fehlende Werte enthalten.

Beispiel

Bedenken Sie den folgenden DataFrame:

df = pd.DataFrame({'a':[0,0,1,2,2,2], 'b':[1,2,3,4,np.NaN,4], 'c':np.random.randn(6)})

Nach dem Login kopieren

Anhand der Anzahl und Größe können wir Folgendes beobachten:

df.groupby(['a'])['b'].count()

# Output:
# a  
# 0    2
# 1    1
# 2    2
# Name: b, dtype: int64

df.groupby(['a'])['b'].size()

# Output:
# a  
# 0    2
# 1    1
# 2    3
# dtype: int64

Nach dem Login kopieren

Wie Sie Wie Sie sehen können, schließt count den fehlenden Wert in Gruppe 2 aus, was zu einem Count von 2 für diese Gruppe führt. Im Gegensatz dazu umfasst die Größe den fehlenden Wert, was eine Gesamtzahl von 3 ergibt. Diese Unterscheidung unterstreicht, wie wichtig es ist, das Verhalten dieser Funktionen beim Umgang mit fehlenden Daten zu verstehen.

Das obige ist der detaillierte Inhalt vonPandas GroupBy: Wann sollte „count()' vs. „size()' verwendet werden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!