Pandas-Datengruppenfilterung: entspricht SQLs GROUP BY HAVING
Bei der Datenanalyse ist es oft notwendig, Daten basierend auf Bedingungen zu filtern, die auf die Datengruppe angewendet werden. In SQL ermöglicht die HAVING-Klausel diese Art der bedingten Filterung. In Pandas kann eine ähnliche Funktionalität durch eine Kombination aus Groupby- und Filteroperationen erreicht werden.
Um einen Filter auf gruppierte Daten in Pandas anzuwenden, können Sie die im Groupby-Objekt bereitgestellte Filtermethode verwenden. Diese Methode akzeptiert eine Funktion als Eingabe und wendet sie auf jede Gruppe an. Wenn die Funktion für eine Gruppe „True“ zurückgibt, bleibt die Gruppe erhalten; andernfalls wird sie ausgeschlossen.
Betrachten Sie das folgende Beispiel:
<code class="language-python">import pandas as pd df = pd.DataFrame([[1, 2], [1, 3], [5, 6]], columns=['A', 'B']) # 按列 A 分组数据框 g = df.groupby('A') # 过滤以包含超过 1 行的组 filtered_df = g.filter(lambda x: len(x) > 1) print(filtered_df)</code>
Ausgabe:
<code> A B 0 1 2 1 1 3</code>
In diesem Beispiel erstellt die Groupby-Operation ein Gruppenobjekt für jeden eindeutigen Wert in Spalte A. Die Filtermethode wird dann auf jedes Gruppenobjekt angewendet und die Funktion len(x) wird verwendet, um zu bestimmen, ob die Gruppe beibehalten oder ausgeschlossen werden soll. In diesem Beispiel werden Gruppen mit mehr als einer Zeile beibehalten, was zu einem gefilterten Datenrahmen führt.
Sie können auch komplexere Filterfunktionen erstellen, sofern diese einen booleschen Wert zurückgeben. Um beispielsweise eine Gruppe basierend auf der Summe der Werte in Spalte B zu filtern, würden Sie Folgendes verwenden:
<code class="language-python">filtered_df = g.filter(lambda x: x['B'].sum() == 5)</code>
Beachten Sie, dass möglicherweise ein Fehler vorliegt, bei dem Sie nicht auf die zum Gruppieren verwendeten Spalten in der Filterfunktion zugreifen können. Eine Problemumgehung besteht darin, den Datenrahmen manuell mithilfe von Spaltennamen zu gruppieren.
Das obige ist der detaillierte Inhalt vonWie erreicht man die GROUP BY HAVING-Funktionalität von SQL mit der bedingten Filterung von Pandas?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!