Imputieren fehlender Werte mit dem Gruppenmittelwert in Pandas-DataFrames
Bei Datenmanipulationsaufgaben stößt man häufig auf fehlende Werte, die als NaN bezeichnet werden. Um dieses Problem zu lösen, besteht ein Ansatz darin, diese fehlenden Werte mit dem innerhalb bestimmter Gruppen berechneten Mittelwert zu ergänzen.
Betrachten Sie den Beispieldatenrahmen:
name | value |
---|---|
A | 1 |
A | NaN |
B | NaN |
B | 2 |
B | 3 |
B | 1 |
C | 3 |
C | NaN |
C | 3 |
Unser Ziel ist es, das NaN zu ersetzen Werte mit dem entsprechenden Gruppenmittelwert von „Wert“. Um dies zu erreichen, können wir die transform()-Methode nutzen:
mean_values = df.groupby('name').transform(lambda x: x.fillna(x.mean())) df["value"] = mean_values
Nach der Ausführung wird der Datenrahmen aktualisiert:
name | value |
---|---|
A | 1 |
A | 1 |
B | 2 |
B | 2 |
B | 3 |
B | 1 |
C | 3 |
C | 3 |
C | 3 |
Jeder NaN-Wert wurde durch seinen jeweiligen Gruppenmittelwert ersetzt , wodurch die Integrität der Daten für die weitere Analyse gewahrt bleibt.
Das obige ist der detaillierte Inhalt vonWie kann ich fehlende Werte in Pandas-DataFrames mithilfe von Gruppenmitteln unterstellen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!