Lernen Sie diese Techniken kennen, um Ihre Daten aufgeräumter zu gestalten: eine kurze Einführung in die Pandas-Deduplizierungsmethode

王林

Freigeben： 2024-01-24 08:02:06

Original

825 Leute haben es durchsucht

Lernen Sie diese Techniken kennen, um Ihre Daten aufgeräumter zu gestalten: eine kurze Einführung in die Pandas-Deduplizierungsmethode

Einführung in die Pandas-Deduplizierungsmethode: Lernen Sie, diese Techniken zu verwenden, um Daten sauberer zu machen. Es sind spezifische Codebeispiele erforderlich.

Übersicht:
Bei der Datenanalyse und -verarbeitung stoßen wir häufig auf Situationen, in denen doppelte Daten verarbeitet werden müssen. Das Vorhandensein doppelter Daten kann zu einer Verzerrung der Analyseergebnisse führen. Daher ist die Deduplizierung ein sehr wichtiger und grundlegender Datenverarbeitungsvorgang. Pandas bietet eine Vielzahl von Deduplizierungsmethoden. In diesem Artikel werden die häufig verwendeten Techniken kurz vorgestellt und einige spezifische Codebeispiele bereitgestellt.

Methode 1: drop_duplicates()
Die drop_duplicates()-Methode von Pandas ist eine der am häufigsten verwendeten Methoden zur Deduplizierung. Es kann doppelte Zeilen aus Daten basierend auf angegebenen Spalten entfernen. Standardmäßig behält diese Methode das erste Vorkommen eines doppelten Werts bei und löscht nachfolgende Vorkommen des doppelten Werts. Hier ist ein Codebeispiel:

Pandas als PD importieren

Einen DataFrame mit doppelten Daten erstellen

data = {'A': [1, 2, 3, 4, 4, 5, 6],

    'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f']}

Nach dem Login kopieren

df = pd.DataFrame(data)

Verwenden Sie die Methode drop_duplicates(), um doppelte Zeilen zu entfernen

df.drop_duplicates(inplace=True)

print(df)

Führen Sie den obigen Code aus und Sie erhalten einen DataFrame mit entfernten doppelten Zeilen .

Methode 2: duplizierter () und ~-Operator
Zusätzlich zur Methode drop_duplicates() können wir auch die duplizierte ()-Methode verwenden, um zu bestimmen, ob jede Zeile eine doppelte Zeile ist, und dann den ~-Operator zum Invertieren und Auswählen verwenden nicht doppelte Zeilen. Hier ist ein Codebeispiel:

Pandas als PD importieren

Erstellen Sie einen DataFrame mit doppelten Daten

data = {'A': [1, 2, 3, 4, 4, 5, 6],

    'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f']}

Nach dem Login kopieren

df = pd.DataFrame(data)

Verwenden Sie den Operator „duplicated()“ und „~“, um doppelte Zeilen zu entfernen

df = df[~df.duplicated()]

print(df)

Wenn Sie den obigen Code ausführen, erhalten Sie dasselbe Ergebnis wie bei der vorherigen Methode Ein identisches Ergebnis.

Methode 3: Teilmengenparameter
Die Methode drop_duplicates() stellt auch einen Teilmengenparameter bereit, der eine oder mehrere Spalten angeben kann, um doppelte Zeilen zu ermitteln. Hier ist ein Codebeispiel:

Pandas als PD importieren

Erstellen Sie einen DataFrame mit doppelten Daten

data = {'A': [1, 2, 3, 4, 4, 5, 6],

    'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f'],
    'C': ['x', 'y', 'y', 'z', 'z', 'y', 'z']}

Nach dem Login kopieren

df = pd.DataFrame(data)

Verwenden Sie den Subset-Parameter, um doppelte Zeilen bestimmter Spalten zu entfernen

df.drop_duplicates(subset=['A', 'B'], inplace=True)

print(df)

Run the oben Der Code erhält das Ergebnis des Entfernens doppelter Zeilen basierend auf den Spalten „A“ und „B“.

Methode 4: Keep-Parameter
Der Keep-Parameter der drop_duplicates()-Methode kann auf „last“ gesetzt werden, um den letzten der doppelten Werte beizubehalten. Hier ist ein Codebeispiel:

Pandas als PD importieren

Erstellen Sie einen DataFrame mit doppelten Daten

data = {'A': [1, 2, 3, 4, 4, 5, 6],

    'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f']}

Nach dem Login kopieren

df = pd.DataFrame(data)

Verwenden Sie den Keep-Parameter, um den letzten doppelten Wert beizubehalten

df.drop_duplicates(keep='last', inplace=True)

print(df)

Führen Sie den obigen Code aus und Sie erhalten Die beibehaltenen Duplikate Das Ergebnis des letzten Werts.

Methode 5: Primärschlüssel zum Entfernen von Duplikaten verwenden
Bei der Verarbeitung eines DataFrame mit mehreren Spalten können wir die Methode set_index() verwenden, um eine oder mehrere Spalten als Primärschlüssel festzulegen, und dann die Methode drop_duplicates() verwenden, um Duplikate zu entfernen Reihen. Hier ist ein Codebeispiel:

Pandas als PD importieren

Erstellen Sie einen DataFrame mit doppelten Daten

data = {'A': [1, 2, 3, 4, 4, 5, 6],

    'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f'],
    'C': ['x', 'y', 'y', 'z', 'z', 'y', 'z']}

Nach dem Login kopieren

df = pd.DataFrame(data)

Verwenden Sie die Methode set_index(), um die Spalten „A“ und „B“ als Primärschlüssel festzulegen, und verwenden Sie dann die Methode drop_duplicates(), um doppelte Zeilen zu entfernen

df.set_index(['A ', 'B'] , inplace=True)
df = df[~df.index.duplicated()]

print(df)

Führen Sie den obigen Code aus und Sie erhalten das Ergebnis des Entfernens doppelter Zeilen basierend auf Spalten 'A und B'.

Zusammenfassung:
In diesem Artikel werden einige häufig verwendete Deduplizierungsmethoden in Pandas kurz vorgestellt, darunter die Methode drop_duplicates(), die Operatoren duplicated() und ~, Subset-Parameter, Keep-Parameter und die Methode zur Verwendung von Primärschlüsseln zum Deduplizieren. Durch das Erlernen und flexible Anwenden dieser Techniken können wir wiederholte Daten bequemer verarbeiten, die Daten sauberer machen und eine zuverlässige Grundlage für die nachfolgende Datenanalyse und -verarbeitung bereitstellen. Ich hoffe, dieser Artikel wird Ihnen beim Lernen von Pandas hilfreich sein.

Das obige ist der detaillierte Inhalt vonLernen Sie diese Techniken kennen, um Ihre Daten aufgeräumter zu gestalten: eine kurze Einführung in die Pandas-Deduplizierungsmethode. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!