Bei der Arbeit mit Daten ist es oft wünschenswert, Statistiken über verschiedene Gruppen hinweg zu analysieren und zu vergleichen. Pandas, eine bekannte Python-Bibliothek zur Datenbearbeitung, bietet GroupBy-Funktionalität, um diese Vorgänge mühelos durchzuführen.
Der einfachste Weg, die Zeilenanzahlen für jede Gruppe zu ermitteln, ist über die .size()-Methode. Diese Methode gibt eine Serie zurück, die gruppenweise Zählungen enthält:
df.groupby(['col1','col2']).size()
So rufen Sie die Zählungen im Tabellenformat ab (d. h. als DataFrame mit einer Spalte „Zählungen“):
df.groupby(['col1', 'col2']).size().reset_index(name='counts')
Um mehrere Statistiken zu berechnen, verwenden Sie die Methode .agg() mit einem Wörterbuch. Die Schlüssel geben die zu berechnenden Spalten an, während die Werte Listen der gewünschten Aggregationen sind (z. B. „Mittelwert“, „Median“ und „Anzahl“):
df.groupby(['col1', 'col2']).agg({ 'col3': ['mean', 'count'], 'col4': ['median', 'min', 'count'] })
Für mehr Kontrolle über die Ausgabe können einzelne Aggregationen verbunden werden:
counts = df.groupby(['col1', 'col2']).size().to_frame(name='counts') counts.join(gb.agg({'col3': 'mean'}).rename(columns={'col3': 'col3_mean'})) \ .join(gb.agg({'col4': 'median'}).rename(columns={'col4': 'col4_median'})) \ .join(gb.agg({'col4': 'min'}).rename(columns={'col4': 'col4_min'})) \ .reset_index()
Dies erzeugt einen strukturierteren DataFrame mit nicht verschachtelten Spalten Beschriftungen.
Im bereitgestellten Beispiel können Nullwerte zu Diskrepanzen in der Zeilenanzahl führen, die für verschiedene Berechnungen verwendet wird. Dies unterstreicht die Bedeutung der Berücksichtigung von Nullwerten bei der Interpretation gruppenweiser Statistiken.
Das obige ist der detaillierte Inhalt vonWie kann Pandas GroupBy zur Berechnung gruppenweiser Statistiken in Python verwendet werden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!