Das Folgende ist ein Beispiel für die Python-Deduplizierung doppelter Daten mit mehreren Attributen. Es hat einen guten Referenzwert und ich hoffe, dass es für alle hilfreich sein wird. Werfen wir gemeinsam einen Blick darauf
Die Schritte zum Deduplizieren doppelter Daten im Pandas-Modul in Python:
1) Verwenden Sie die duplizierte Methode in DataFrame Gibt eine boolesche Reihe zurück, um anzuzeigen, ob in jeder Zeile doppelte Zeilen vorhanden sind, und doppelte Zeilen werden als TRUE angezeigt.
2) Verwenden Sie dann die Methode drop_duplicates im DataFrame, um a zurückzugeben DataFrame mit wiederholten Zeilen entfernt.
Hinweis:
Wenn in der duplizierten Methode und der drop_duplicates-Methode keine Parameter festgelegt sind, beurteilen diese beiden Methoden standardmäßig alle Zwei Methoden fügen bestimmte Attributnamen (oder Spaltennamen) hinzu, zum Beispiel: frame.drop_duplicates(['state']), und geben dann einige Spalten (Statusspalten) an, um Duplikate zu ermitteln.
Spezifische Beispiele sind wie folgt:
>>> import pandas as pd >>> data={'state':[1,1,2,2],'pop':['a','b','c','d']} >>> frame=pd.DataFrame(data) >>> frame pop state 0 a 1 1 b 1 2 c 2 3 d 2 >>> IsDuplicated=frame.duplicated() >>> print IsDuplicated 0 False 1 False 2 False 3 False dtype: bool >>> frame=frame.drop_duplicates(['state']) >>> frame pop state 0 a 1 2 c 2 >>> IsDuplicated=frame.duplicated(['state']) >>> print IsDuplicated 0 False 2 False dtype: bool >>>
Das obige ist der detaillierte Inhalt vonPython dedupliziert doppelte Daten mit mehreren Attributen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!