Imputation de valeurs manquantes avec la moyenne de groupe dans les DataFrames Pandas
Dans les tâches de manipulation de données, il est courant de rencontrer des valeurs manquantes notées NaN. Pour résoudre ce problème, une approche consiste à remplir ces valeurs manquantes avec la valeur moyenne calculée au sein de groupes spécifiques.
Considérez l'exemple de dataframe :
name | value |
---|---|
A | 1 |
A | NaN |
B | NaN |
B | 2 |
B | 3 |
B | 1 |
C | 3 |
C | NaN |
C | 3 |
Notre objectif est de remplacer le NaN valeurs avec la moyenne du groupe correspondant de « valeur ». Pour y parvenir, nous pouvons exploiter la méthode transform() :
mean_values = df.groupby('name').transform(lambda x: x.fillna(x.mean())) df["value"] = mean_values
Après l'exécution, la trame de données est mise à jour :
name | value |
---|---|
A | 1 |
A | 1 |
B | 2 |
B | 2 |
B | 3 |
B | 1 |
C | 3 |
C | 3 |
C | 3 |
Chaque valeur NaN a été remplacée par sa moyenne de groupe respective , préservant l'intégrité des données pour une analyse plus approfondie.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!