Utilisez des pandas pour traiter facilement les données des fichiers txt
Dans l'analyse et le traitement des données, nous rencontrons souvent des situations où les données lues à partir des fichiers txt doivent être traitées. Par exemple, le format des données prête à confusion et doit être nettoyé ; certaines colonnes ne sont pas valides et doivent être supprimées ; certaines colonnes doivent être converties en type, etc. Ces tâches peuvent demander beaucoup de travail et de temps, mais nous pouvons facilement réaliser ces opérations grâce à la bibliothèque Python pandas.
Cet article combinera des exemples de code pour vous apprendre à utiliser les pandas pour traiter les données des fichiers txt.
Avant d'utiliser la bibliothèque pandas, nous devons d'abord la présenter. Dans les scripts Python, il est généralement convenu de renommer la bibliothèque pandas en pd pour faciliter les appels ultérieurs.
import pandas as pd
Tout d'abord, nous devons lire les données dans le fichier txt. Chez les pandas, nous utilisons la fonction pd.read_csv() pour lire les données. Bien que le nom de la fonction contienne csv, cette fonction convient également à la lecture de fichiers txt.
data = pd.read_csv('data.txt', sep=' ', header=None)
Les paramètres de la fonction sont expliqués comme suit :
Après avoir lu les données, nous pouvons visualiser le contenu et la forme des données en imprimant les données.
print(data)
Résultat de sortie :
0 1 2 0 A 123 1.0 1 B 321 2.0 2 C 231 NaN 3 D 213 4.0 4 E 132 3.0
On peut voir que les données lues ont été stockées dans des données sous forme de DataFrame.
Les données lues peuvent présenter de nombreuses irrégularités ou erreurs de format, ce qui nous oblige à nettoyer les données. Par exemple, il peut y avoir des valeurs manquantes dans certaines lignes ou colonnes, et nous devons les remplir ou les supprimer ; le type de données de certaines colonnes peut ne pas répondre à nos besoins, et nous devons les convertir en types numériques ou chaînes, etc. .
a. Supprimer les lignes avec des valeurs manquantes
Nous pouvons utiliser la fonction dropna() pour supprimer les lignes avec des valeurs manquantes.
data_clean = data.dropna()
Cette fonction supprimera toutes les lignes contenant des valeurs manquantes dans les données et renverra un DataFrame avec uniquement des données complètes.
b. Remplissez les valeurs manquantes
Si les lignes contenant des valeurs manquantes ne peuvent pas être supprimées, nous pouvons choisir de remplir ces valeurs manquantes. Utilisez simplement la fonction fillna().
data_fill = data.fillna(0)
Cette fonction remplit les valeurs manquantes avec 0. Si vous souhaitez la remplir avec d'autres valeurs, vous pouvez passer la valeur correspondante entre parenthèses.
c. Convertir les types de données
Dans l'analyse des données, certains types de données doivent être convertis en types numériques ou caractères pour un calcul ou un traitement ultérieur. Dans les pandas, vous pouvez utiliser la fonction astype() pour la conversion de type.
data_conversion = data_clean.astype({'1': 'int', '2': 'str'})
Cette fonction peut convertir le type de colonne 1 dans data_clean en type entier (int) et le type de colonne 2 en type chaîne (str).
Enfin, nous devons enregistrer les données nettoyées et traitées dans un nouveau fichier txt. Chez les pandas, nous pouvons utiliser la fonction to_csv() pour y parvenir.
data_clean.to_csv('data_clean.txt', index=False, header=False, sep=' ')
Les paramètres de la fonction sont expliqués comme suit :
Exemple de code
Vous trouverez ci-dessous l'exemple de code complet que vous pouvez copier dans un script Python et exécuter.
import pandas as pd # 读入数据 data = pd.read_csv('data.txt', sep=' ', header=None) print('原始数据: ', data) # 删除含有缺失值的行 data_clean = data.dropna() print('处理后数据(删除缺失值): ', data_clean) # 填充缺失值 data_fill = data.fillna(0) print('处理后数据(填充缺失值): ', data_fill) # 转换数据类型 data_conversion = data_clean.astype({'1': 'int', '2': 'str'}) print('处理后数据(类型转换): ', data_conversion) # 保存新数据 data_clean.to_csv('data_clean.txt', index=False, header=False, sep=' ')
Cet article explique comment utiliser pandas pour traiter facilement les données des fichiers txt, y compris la lecture, le nettoyage, la conversion et la sauvegarde des données. En tant que l'un des outils de traitement de données importants de Python, les pandas peuvent nous aider à accomplir plus efficacement les tâches d'exploration et d'analyse de données.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!