Maison > développement back-end > Tutoriel Python > Comment puis-je supprimer efficacement les valeurs aberrantes d'une colonne Pandas DataFrame ?

Comment puis-je supprimer efficacement les valeurs aberrantes d'une colonne Pandas DataFrame ?

Linda Hamilton
Libérer: 2024-12-06 11:56:11
original
464 Les gens l'ont consulté

How Can I Efficiently Remove Outliers from a Pandas DataFrame Column?

Exclusion de valeurs aberrantes dans les DataFrames Pandas : détection et suppression des anomalies de données

Dans l'analyse des données, les valeurs aberrantes peuvent fausser les résultats et fausser les interprétations. Pour atténuer ce problème, il est crucial de détecter et d’exclure les valeurs aberrantes des ensembles de données. Cet article présente une méthode élégante d'exclusion des valeurs aberrantes dans les DataFrames pandas à l'aide de la fonction scipy.stats.zscore.

Supposons que vous ayez un DataFrame avec plusieurs colonnes, dont l'une (nommée "Vol") contient des valeurs avec un valeur aberrante (par exemple, 4 000 alors que la plupart des valeurs se situent autour de 1 200). Pour supprimer les lignes comportant de telles valeurs aberrantes dans une colonne spécifique, procédez comme suit :

Utilisation de scipy.stats.zscore pour la détection des valeurs aberrantes

  1. Importez le bibliothèques nécessaires :

    import pandas as pd
    import numpy as np
    from scipy import stats
    Copier après la connexion
  2. Calculez le score Z pour le colonne sensible aux valeurs aberrantes :

    df["Vol_zscore"] = stats.zscore(df["Vol"])
    Copier après la connexion
  3. Créez une condition pour identifier les lignes comprises dans trois écarts types par rapport à la moyenne :

    mask = np.abs(df["Vol_zscore"]) < 3
    Copier après la connexion
  4. Utilisez la condition pour filtrer le DataFrame et supprimer les valeurs aberrantes lignes :

    filtered_df = df[mask]
    Copier après la connexion

En appliquant ces étapes, vous pouvez détecter et exclure efficacement les lignes contenant des valeurs aberrantes dans une colonne spécifique de votre Pandas DataFrame. Cette méthode vous permet de supprimer les anomalies qui pourraient potentiellement biaiser votre analyse de données et de garantir des résultats plus précis et fiables.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal