Apprenez ces techniques pour rendre vos données plus ordonnées : une brève introduction à la méthode de duplication de Pandas

王林

Libérer： 2024-01-24 08:02:06

original

827 Les gens l'ont consulté

Apprenez ces techniques pour rendre vos données plus ordonnées : une brève introduction à la méthode de duplication de Pandas

Introduction à la méthode de déduplication Pandas : apprenez à utiliser ces techniques pour rendre les données plus propres, des exemples de code spécifiques sont nécessaires

Aperçu :
Dans l'analyse et le traitement des données, nous rencontrons souvent des situations où des données en double doivent être traitées. L'existence de données en double peut entraîner un biais dans les résultats d'analyse. La déduplication est donc une opération de traitement de données très importante et fondamentale. Pandas propose une variété de méthodes de déduplication. Cet article présentera brièvement les techniques couramment utilisées et fournira quelques exemples de code spécifiques.

Méthode 1 : drop_duplicates()
La méthode drop_duplicates() de Pandas est l'une des méthodes les plus couramment utilisées pour la déduplication. Il peut supprimer les lignes en double des données en fonction des colonnes spécifiées. Par défaut, cette méthode conserve la première occurrence d'une valeur en double et supprime les occurrences suivantes de la valeur en double. Voici un exemple de code :

importer des pandas en tant que pd

Créer un DataFrame avec des données en double

data = {'A' : [1, 2, 3, 4, 4, 5, 6],

    'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f']}

Copier après la connexion

df = pd.DataFrame(data)

Utilisez la méthode drop_duplicates() pour supprimer les lignes en double

df.drop_duplicates(inplace=True)

print(df)

Exécutez le code ci-dessus et vous obtiendrez un DataFrame avec les lignes en double supprimées .

Méthode 2 : opérateur duplicated() et ~
En plus de la méthode drop_duplicates(), nous pouvons également utiliser la méthode duplicated() pour déterminer si chaque ligne est une ligne en double, puis utiliser l'opérateur ~ pour inverser la sélection lignes non dupliquées. Voici un exemple de code :

importer des pandas en tant que pd

Créer un DataFrame avec des données en double

data = {'A' : [1, 2, 3, 4, 4, 5, 6],

    'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f']}

Copier après la connexion

df = pd.DataFrame(data)

Utilisez les opérateurs duplicated() et ~ pour supprimer les lignes en double

df = df[~df.duplicate()]

print(df)

En exécutant le code ci-dessus, vous obtiendrez le même résultat comme la méthode précédente Un résultat identique.

Méthode 3 : paramètre de sous-ensemble
La méthode drop_duplicates() fournit également un paramètre de sous-ensemble, qui peut spécifier une ou plusieurs colonnes pour déterminer les lignes en double. Voici un exemple de code :

importer des pandas en tant que pd

Créer un DataFrame avec des données en double

data = {'A' : [1, 2, 3, 4, 4, 5, 6],

    'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f'],
    'C': ['x', 'y', 'y', 'z', 'z', 'y', 'z']}

Copier après la connexion

df = pd.DataFrame(data)

Utilisez le paramètre de sous-ensemble pour supprimer les lignes en double de colonnes spécifiques

df.drop_duplicates(subset=['A', 'B'], inplace=True)

print(df)

Exécutez le ci-dessus Le code obtiendra le résultat de la suppression des lignes en double en fonction des colonnes « A » et « B ».

Méthode 4 : paramètre keep
Le paramètre keep de la méthode drop_duplicates() peut être défini sur 'last' pour conserver la dernière des valeurs en double. Voici un exemple de code :

importer des pandas en tant que pd

Créer un DataFrame avec des données en double

data = {'A' : [1, 2, 3, 4, 4, 5, 6],

    'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f']}

Copier après la connexion

df = pd.DataFrame(data)

Utilisez le paramètre keep pour conserver la dernière valeur en double

df.drop_duplicates(keep='last', inplace=True)

print(df)

Exécutez le code ci-dessus et vous obtiendrez les doublons conservés Le résultat de la dernière valeur.

Méthode 5 : Utiliser la clé primaire pour supprimer les doublons
Lors du traitement d'un DataFrame contenant plusieurs colonnes, nous pouvons utiliser la méthode set_index() pour définir une ou plusieurs colonnes comme clé primaire, puis utiliser la méthode drop_duplicates() pour supprimer les doublons. Lignes. Voici un exemple de code :

importer des pandas en tant que pd

Créer un DataFrame avec des données en double

data = {'A' : [1, 2, 3, 4, 4, 5, 6],

    'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f'],
    'C': ['x', 'y', 'y', 'z', 'z', 'y', 'z']}

Copier après la connexion

df = pd.DataFrame(data)

Utilisez la méthode set_index() pour définir les colonnes 'A' et 'B' comme clés primaires, puis utilisez la méthode drop_duplicates() pour supprimer les lignes en double

df.set_index(['A ', 'B'] , inplace=True)
df = df[~df.index.duplicate()]

print(df)

Exécutez le code ci-dessus et vous obtiendrez le résultat de la suppression des lignes en double en fonction des colonnes « A » et « B ».

Résumé :
Cet article présente brièvement plusieurs méthodes de déduplication couramment utilisées dans Pandas, notamment la méthode drop_duplicates(), les opérateurs duplicated() et ~, le paramètre de sous-ensemble, le paramètre keep et la méthode d'utilisation des clés primaires pour dédupliquer. En apprenant et en appliquant ces techniques de manière flexible, nous pouvons traiter les données répétées plus facilement, rendre les données plus propres et fournir une base fiable pour l'analyse et le traitement ultérieurs des données. J'espère que cet article vous sera utile dans le processus d'apprentissage des Pandas.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!