Wie kann Pandas GroupBy zur Berechnung gruppenweiser Statistiken in Python verwendet werden?-Python-Tutorial-php.cn

Wie kann Pandas GroupBy zur Berechnung gruppenweiser Statistiken in Python verwendet werden?

Barbara Streisand

Freigeben： 2024-12-21 21:18:04

Original

772 Leute haben es durchsucht

How Can Pandas GroupBy Be Used to Calculate Group-Wise Statistics in Python?

Berechnen Sie gruppenbezogene Statistiken mit Pandas GroupBy

Einführung

Bei der Arbeit mit Daten ist es oft wünschenswert, Statistiken über verschiedene Gruppen hinweg zu analysieren und zu vergleichen. Pandas, eine bekannte Python-Bibliothek zur Datenbearbeitung, bietet GroupBy-Funktionalität, um diese Vorgänge mühelos durchzuführen.

Gruppenweise Zeilenanzahlen abrufen

Der einfachste Weg, die Zeilenanzahlen für jede Gruppe zu ermitteln, ist über die .size()-Methode. Diese Methode gibt eine Serie zurück, die gruppenweise Zählungen enthält:

df.groupby(['col1','col2']).size()

Nach dem Login kopieren

So rufen Sie die Zählungen im Tabellenformat ab (d. h. als DataFrame mit einer Spalte „Zählungen“):

df.groupby(['col1', 'col2']).size().reset_index(name='counts')

Nach dem Login kopieren

Berechnen mehrerer gruppenbezogener Statistiken

Um mehrere Statistiken zu berechnen, verwenden Sie die Methode .agg() mit einem Wörterbuch. Die Schlüssel geben die zu berechnenden Spalten an, während die Werte Listen der gewünschten Aggregationen sind (z. B. „Mittelwert“, „Median“ und „Anzahl“):

df.groupby(['col1', 'col2']).agg({
    'col3': ['mean', 'count'],
    'col4': ['median', 'min', 'count']
})

Nach dem Login kopieren

Anpassen der Datenausgabe

Für mehr Kontrolle über die Ausgabe können einzelne Aggregationen verbunden werden:

counts = df.groupby(['col1', 'col2']).size().to_frame(name='counts')
counts.join(gb.agg({'col3': 'mean'}).rename(columns={'col3': 'col3_mean'})) \
    .join(gb.agg({'col4': 'median'}).rename(columns={'col4': 'col4_median'})) \
    .join(gb.agg({'col4': 'min'}).rename(columns={'col4': 'col4_min'})) \
    .reset_index()

Nach dem Login kopieren

Dies erzeugt einen strukturierteren DataFrame mit nicht verschachtelten Spalten Beschriftungen.

Fußnoten

Im bereitgestellten Beispiel können Nullwerte zu Diskrepanzen in der Zeilenanzahl führen, die für verschiedene Berechnungen verwendet wird. Dies unterstreicht die Bedeutung der Berücksichtigung von Nullwerten bei der Interpretation gruppenweiser Statistiken.

Das obige ist der detaillierte Inhalt vonWie kann Pandas GroupBy zur Berechnung gruppenweiser Statistiken in Python verwendet werden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!