Bei der Arbeit mit Pandas-Datenrahmen kommt es häufig zu Situationen, in denen Daten im Datensatz fehlen. Dies kann zu Fehlern beim Ausführen von Vorgängen wie dem Plotten oder Berechnen von Statistiken führen.
Stellen Sie sich den Fall vor, dass Sie einen Datenrahmen mit mehreren Ereignissen an einem bestimmten Datum oder keinen Ereignissen an einem Datum haben. Wenn Sie den Datenrahmen nach Datum gruppieren und die Ereignisse zählen, erhalten Sie möglicherweise eine Reihe mit weniger Datumsangaben als der ursprüngliche Bereich. Dies kann zu einem Fehler führen, wenn versucht wird, die Serie im Vergleich zum ursprünglichen Datumsbereich darzustellen.
Die Lösung für dieses Problem besteht darin, die fehlenden Daten mit der Anzahl 0 zur Serie hinzuzufügen. Dies kann mithilfe der Neuindizierung erreicht werden Funktion. Die Reindex-Funktion nimmt einen neuen Index als Argument und füllt die fehlenden Werte mit einem angegebenen Wert (standardmäßig NaN).
import pandas as pd idx = pd.date_range('09-01-2013', '09-30-2013') s = pd.Series({'09-02-2013': 2, '09-03-2013': 10, '09-06-2013': 5, '09-07-2013': 1}) s.index = pd.DatetimeIndex(s.index) s = s.reindex(idx, fill_value=0)
Der obige Code verwendet Reindex, um die fehlenden Daten zur Reihe s hinzuzufügen, mit ein Füllwert von 0. Dies führt zu einer Reihe mit allen Daten im Bereich „01.09.2013“ bis „30.09.2013“, mit einer Anzahl von 0 für Daten, bei denen Es sind keine Ereignisse aufgetreten.
Das obige ist der detaillierte Inhalt vonWie kann ich fehlende Daten in meinem Pandas-DataFrame ergänzen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!