Heim > Backend-Entwicklung > Python-Tutorial > Wie berechnet man gruppenweise Statistiken in Pandas mit GroupBy?

Wie berechnet man gruppenweise Statistiken in Pandas mit GroupBy?

Patricia Arquette
Freigeben: 2024-12-19 21:26:11
Original
986 Leute haben es durchsucht

How to Calculate Group-Wise Statistics in Pandas Using GroupBy?

So erhalten Sie gruppenweise Statistiken für einen Datenrahmen mit Pandas GroupBy

Bei der Arbeit mit Daten ist es oft nützlich, Daten basierend auf bestimmten Daten zusammenfassen und analysieren zu können Gruppierungskriterien. Pandas, eine leistungsstarke Python-Bibliothek zur Datenbearbeitung und -analyse, bietet mit ihrer GroupBy-Funktionalität eine praktische Möglichkeit, dies zu tun.

Schnelle Antwort

Um die Zeilenanzahl innerhalb jeder Gruppe zu ermitteln, verwenden Sie die Datei .size ()-Methode, die eine Serie zurückgibt:

df.groupby(['col1','col2']).size()
Nach dem Login kopieren

Um dies in ein DataFrame-Formular zu konvertieren, verwenden:

df.groupby(['col1', 'col2']).size().reset_index(name='counts')
Nach dem Login kopieren
Nach dem Login kopieren

Alternativ kann zur Berechnung der Zeilenanzahl und anderer Statistiken für jede Gruppe der folgende Ansatz verwendet werden:

df.groupby(['col1', 'col2'])[['col3', 'col4']].agg({
    'col3': ['mean', 'count'], 
    'col4': ['median', 'min', 'count']
})
Nach dem Login kopieren

Detailliertes Beispiel

Angenommen, wir habe einen Datenrahmen namens df mit den Spalten col1 bis col4. Zur Veranschaulichung berechnen wir die Zeilenanzahl pro Gruppe:

df.groupby(['col1', 'col2']).size()
Nach dem Login kopieren

Die Ausgabe zeigt die Anzahl der Zeilen in jeder eindeutigen Kombination von Spalten1- und Spalten2-Werten an.

Um diese Anzahlen als hinzuzufügen Spalte zu unserem DataFrame hinzufügen, können wir die Methode .reset_index(name='counts') verwenden:

df.groupby(['col1', 'col2']).size().reset_index(name='counts')
Nach dem Login kopieren
Nach dem Login kopieren

Einschließlich Ergebnisse für Zusätzliche Statistiken

Wenn wir mehrere Statistiken zu den gruppierten Daten berechnen möchten, können wir die agg()-Methode verwenden. Um beispielsweise den Mittelwert und die Anzahl für Spalte 3 sowie den Median, das Minimum und die Anzahl für Spalte 4 zu berechnen, würden wir Folgendes verwenden:

df.groupby(['col1', 'col2']).agg({
    'col3': ['mean', 'count'], 
    'col4': ['median', 'min', 'count']
})
Nach dem Login kopieren

Dadurch wird ein DataFrame mit den angeforderten Statistiken für jede eindeutige Kombination von Spalte 1 zurückgegeben und col2-Werte.

Fazit

Pandas GroupBy ist ein leistungsstarkes Tool zur Analyse von Daten anhand spezifischer Kriterien. Durch den Einsatz geeigneter Methoden und Aggregationen können Sie effizient gruppenbezogene Statistiken erhalten, um Erkenntnisse zu gewinnen und Ihre Daten besser zu verstehen.

Das obige ist der detaillierte Inhalt vonWie berechnet man gruppenweise Statistiken in Pandas mit GroupBy?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage