Normalisation des colonnes d'un Dataframe
Dans un ensemble de données, il est courant que différentes colonnes aient des plages de valeurs variables. Cela peut rendre difficile la comparaison et l’analyse des données. La normalisation des colonnes les met à l'échelle selon une plage commune, généralement comprise entre 0 et 1, ce qui permet une comparaison et une analyse plus faciles.
Une méthode pour normaliser les colonnes dans Pandas, une bibliothèque d'analyse de données populaire, est la normalisation moyenne. Cela consiste à soustraire la moyenne de chaque valeur et à diviser le résultat par l’écart type. Cela traduit les valeurs en une moyenne de 0 et un écart type de 1, comme le montre la formule :
normalized_df = (df - df.mean()) / df.std()
Alternativement, la normalisation min-max peut être utilisée. Cette méthode met à l'échelle les valeurs en fonction des valeurs minimales et maximales de la colonne. La formule de normalisation min-max est :
normalized_df = (df - df.min()) / (df.max() - df.min())
Pour appliquer l'une ou l'autre méthode, utilisez simplement les formules fournies sur le dataframe. Pandas applique automatiquement la fonction par colonne, assurant la normalisation pour chaque colonne indépendamment.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!