Den Unterschied zwischen Größe und Anzahl bei Pandas verstehen
Bei der Datenmanipulation wird häufig die Groupby-Funktion von Pandas verwendet, um Daten anhand bestimmter Kriterien zu aggregieren. Zwei häufig verwendete Aggregationsfunktionen, Anzahl und Größe, bieten unterschiedliche Einblicke in die gruppierten Daten.
groupby("x").count vs. groupby("x").size
Der grundlegende Unterschied zwischen count und size liegt in der Behandlung fehlender Werte. count berechnet die Anzahl der Nicht-Null-Werte innerhalb einer Gruppe, ohne fehlende Werte (z. B. NaN oder None). Andererseits berechnet die Größe die Gesamtzahl der Beobachtungen in einer Gruppe, unabhängig davon, ob sie fehlende Werte enthalten.
Beispiel
Bedenken Sie den folgenden DataFrame:
df = pd.DataFrame({'a':[0,0,1,2,2,2], 'b':[1,2,3,4,np.NaN,4], 'c':np.random.randn(6)})
Anhand der Anzahl und Größe können wir Folgendes beobachten:
df.groupby(['a'])['b'].count() # Output: # a # 0 2 # 1 1 # 2 2 # Name: b, dtype: int64 df.groupby(['a'])['b'].size() # Output: # a # 0 2 # 1 1 # 2 3 # dtype: int64
Wie Sie Wie Sie sehen können, schließt count den fehlenden Wert in Gruppe 2 aus, was zu einem Count von 2 für diese Gruppe führt. Im Gegensatz dazu umfasst die Größe den fehlenden Wert, was eine Gesamtzahl von 3 ergibt. Diese Unterscheidung unterstreicht, wie wichtig es ist, das Verhalten dieser Funktionen beim Umgang mit fehlenden Daten zu verstehen.
Das obige ist der detaillierte Inhalt vonPandas GroupBy: Wann sollte „count()' vs. „size()' verwendet werden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!