Bei der Arbeit mit Daten ist es oft nützlich, Daten basierend auf bestimmten Daten zusammenfassen und analysieren zu können Gruppierungskriterien. Pandas, eine leistungsstarke Python-Bibliothek zur Datenbearbeitung und -analyse, bietet mit ihrer GroupBy-Funktionalität eine praktische Möglichkeit, dies zu tun.
Um die Zeilenanzahl innerhalb jeder Gruppe zu ermitteln, verwenden Sie die Datei .size ()-Methode, die eine Serie zurückgibt:
df.groupby(['col1','col2']).size()
Um dies in ein DataFrame-Formular zu konvertieren, verwenden:
df.groupby(['col1', 'col2']).size().reset_index(name='counts')
Alternativ kann zur Berechnung der Zeilenanzahl und anderer Statistiken für jede Gruppe der folgende Ansatz verwendet werden:
df.groupby(['col1', 'col2'])[['col3', 'col4']].agg({ 'col3': ['mean', 'count'], 'col4': ['median', 'min', 'count'] })
Angenommen, wir habe einen Datenrahmen namens df mit den Spalten col1 bis col4. Zur Veranschaulichung berechnen wir die Zeilenanzahl pro Gruppe:
df.groupby(['col1', 'col2']).size()
Die Ausgabe zeigt die Anzahl der Zeilen in jeder eindeutigen Kombination von Spalten1- und Spalten2-Werten an.
Um diese Anzahlen als hinzuzufügen Spalte zu unserem DataFrame hinzufügen, können wir die Methode .reset_index(name='counts') verwenden:
df.groupby(['col1', 'col2']).size().reset_index(name='counts')
Wenn wir mehrere Statistiken zu den gruppierten Daten berechnen möchten, können wir die agg()-Methode verwenden. Um beispielsweise den Mittelwert und die Anzahl für Spalte 3 sowie den Median, das Minimum und die Anzahl für Spalte 4 zu berechnen, würden wir Folgendes verwenden:
df.groupby(['col1', 'col2']).agg({ 'col3': ['mean', 'count'], 'col4': ['median', 'min', 'count'] })
Dadurch wird ein DataFrame mit den angeforderten Statistiken für jede eindeutige Kombination von Spalte 1 zurückgegeben und col2-Werte.
Pandas GroupBy ist ein leistungsstarkes Tool zur Analyse von Daten anhand spezifischer Kriterien. Durch den Einsatz geeigneter Methoden und Aggregationen können Sie effizient gruppenbezogene Statistiken erhalten, um Erkenntnisse zu gewinnen und Ihre Daten besser zu verstehen.
Das obige ist der detaillierte Inhalt vonWie berechnet man gruppenweise Statistiken in Pandas mit GroupBy?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!