Den Unterschied zwischen Größe und Anzahl bei Pandas verstehen
Pandas, eine leistungsstarke Python-Bibliothek zur Datenmanipulation und -analyse, bietet flexible Operationen wie z Gruppieren von Daten nach Kategorien. Bei der Arbeit mit gruppierten Daten ist es entscheidend, den Unterschied zwischen den Zähl- und Größenmethoden zu verstehen.
Frage: Was trennt groupby("x").count und groupby("x").size in Pandas? ? Schließt die Größe lediglich Nullen aus?
Antwort:
Der Unterschied zwischen Anzahl und Größe liegt in der Handhabung von NaN-Werten:
Beispiel:
Betrachten Sie den folgenden Pandas DataFrame:
df = pd.DataFrame({'a':[0,0,1,2,2,2], 'b':[1,2,3,4,np.NaN,4], 'c':np.random.randn(6)})
Auswerten die Zähl- und Größenmethoden für die Spalte „b“, gruppiert nach „a“:
print(df.groupby(['a'])['b'].count()) print(df.groupby(['a'])['b'].size())
Ausgabe:
a 0 2 1 1 2 2 Name: b, dtype: int64 a 0 2 1 1 2 3 dtype: int64
Wie offensichtlich, schließt die Zählmethode aus der NaN-Wert in Gruppe 4 (wobei „a“ 2 ist), während die Größenmethode ihn einschließt.
Das obige ist der detaillierte Inhalt vonWas ist der Unterschied zwischen „groupby().count()' und „groupby().size()' in Pandas?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!