Discutez de la méthode de nettoyage et de prétraitement des données à l'aide de pandas
Introduction :
Dans l'analyse des données et l'apprentissage automatique, le nettoyage et le prétraitement des données sont des étapes très importantes. En tant que puissante bibliothèque de traitement de données en Python, pandas possède des fonctions riches et des opérations flexibles, qui peuvent nous aider à nettoyer et prétraiter efficacement les données. Cet article explorera plusieurs méthodes pandas couramment utilisées et fournira des exemples de code correspondants.
1. Lecture des données
Tout d'abord, nous devons lire le fichier de données. pandas fournit de nombreuses fonctions pour lire des fichiers de données dans différents formats, notamment csv, Excel, base de données SQL, etc. En prenant comme exemple la lecture d'un fichier csv, vous pouvez utiliser la fonction read_csv()
.
import pandas as pd # 读取csv文件 df = pd.read_csv('data.csv')
2. Observation des données
Avant d'effectuer le nettoyage et le prétraitement des données, nous devons observer la situation globale des données. Pandas fournit quelques méthodes pour afficher rapidement des informations de base sur les données.
Affichez les premières lignes de données.
df.head()
Affichez les statistiques de base de vos données.
df.describe()
Affichez les noms de colonnes des données.
df.columns
3. Gestion des valeurs manquantes
La gestion des valeurs manquantes est une étape importante dans le nettoyage des données, et pandas fournit quelques méthodes pour gérer les valeurs manquantes.
Déterminez les valeurs manquantes.
df.isnull()
Supprimez les lignes ou les colonnes contenant des valeurs manquantes.
# 删除包含缺失值的行 df.dropna(axis=0) # 删除包含缺失值的列 df.dropna(axis=1)
Remplissage de valeur manquante.
# 使用指定值填充缺失值 df.fillna(value) # 使用均值填充缺失值 df.fillna(df.mean())
4. Traitement des valeurs en double
Les valeurs en double interféreront avec l'analyse et la modélisation des données, nous devons donc gérer les valeurs en double.
Déterminez les valeurs en double.
df.duplicated()
Supprimez les valeurs en double.
df.drop_duplicates()
5. Conversion de données
La conversion de données est une partie importante du prétraitement, et pandas fournit de nombreuses méthodes de conversion de données.
Tri des données.
# 按某一列升序排序 df.sort_values(by='column_name') # 按多列升序排序 df.sort_values(by=['column1', 'column2'])
Normalisation des données.
# 使用最小-最大缩放(Min-Max Scaling) df_scaled = (df - df.min()) / (df.max() - df.min())
Discrétisation des données.
# 使用等宽离散化(Equal Width Binning) df['bin'] = pd.cut(df['column'], bins=5)
6. Sélection des fonctionnalités
Selon les besoins de la tâche, nous devons sélectionner les fonctionnalités appropriées pour l'analyse et la modélisation. pandas fournit quelques méthodes pour la sélection des fonctionnalités.
Sélectionnez les fonctionnalités par colonne.
# 根据列名选择特征 df[['column1', 'column2']] # 根据列的位置选择特征 df.iloc[:, 2:4]
Sélectionnez les fonctionnalités en fonction des conditions.
# 根据条件选择特征 df[df['column'] > 0]
7. Fusion de données
Lorsque nous devons fusionner plusieurs ensembles de données, nous pouvons utiliser la méthode fournie par les pandas pour fusionner.
Fusionner par lignes.
df1.append(df2)
Fusionner par colonnes.
pd.concat([df1, df2], axis=1)
8. Sauvegarde des données
Enfin, lorsque nous avons terminé le traitement des données, nous pouvons enregistrer les données traitées dans un fichier.
# 保存到csv文件 df.to_csv('processed_data.csv', index=False) # 保存到Excel文件 df.to_excel('processed_data.xlsx', index=False)
Conclusion :
Cet article présente certaines méthodes courantes de nettoyage et de prétraitement des données à l'aide de pandas, notamment la lecture des données, l'observation des données, le traitement des valeurs manquantes, le traitement des valeurs en double, la transformation des données, la sélection de fonctionnalités, la fusion des données et la sauvegarde des données. Grâce aux fonctions puissantes et aux opérations flexibles de pandas, nous pouvons effectuer efficacement le nettoyage et le prétraitement des données, établissant ainsi une base solide pour l'analyse et la modélisation ultérieures des données. Dans les applications pratiques, les étudiants peuvent choisir des méthodes appropriées en fonction de besoins spécifiques et les utiliser conjointement avec le code réel.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!