Pandas est une bibliothèque de traitement de données qui peut être utilisée pour lire, manipuler et analyser des données. Dans cet article, nous présenterons comment lire des fichiers txt à l'aide de Pandas. Cet article est destiné aux débutants qui souhaitent apprendre les Pandas.
Tout d'abord, importez la bibliothèque Pandas en Python.
import pandas as pd
Avant de lire les fichiers txt, nous devons comprendre certains paramètres courants des fichiers txt :
Exemple : supposons que nous ayons un fichier nommé "data.txt". Tout d’abord, nous devons lire le fichier txt à l’aide de la fonction read_table(). read_table() fournit un moyen très flexible de lire des données texte.
data = pd.read_table('data.txt', delimiter=',', header=0)
Vous pouvez utiliser la fonction .head()
pour afficher les premières lignes de données lues. Les 5 premières lignes de données sont affichées par défaut.
print(data.head())
Après avoir lu les données, nous devons y effectuer le nettoyage et la transformation nécessaires. Cela inclut généralement la suppression des colonnes inutiles, la suppression des valeurs manquantes, le renommage des noms de colonnes, la conversion des types de données, etc. Voici quelques méthodes courantes de nettoyage des données.
data = data.drop(columns=['ID'])
data.dropna(inplace=True)
data = data.rename(columns={'OldName': 'NewName'})
data['ColumnName'] = data['ColumnName'].astype(str) data['ColumnName'] = data['ColumnName'].astype(int)
Après le nettoyage des données, nous pouvons démarrer l’analyse des données. Pandas fournit des méthodes riches pour traiter les données.
Par exemple, pour calculer la somme d'une colonne :
total = data['ColumnName'].sum() print(total)
Dans Pandas, vous pouvez regrouper vos données à l'aide de la fonction groupby(). Par exemple, disons que nous souhaitons regrouper les données par nom et calculer la moyenne après le regroupement :
grouped_data = data.groupby(['Name']).mean() print(grouped_data.head())
Enfin, grâce à la visualisation des données, nous pouvons comprendre plus clairement les tendances et les modèles des données.
import matplotlib.pyplot as plt plt.bar(data['ColumnName'], data['Count']) plt.xlabel('ColumnName') plt.ylabel('Count') plt.title('ColumnName vs Count') plt.show()
Pour résumer, Pandas offre un moyen pratique et rapide de lire, nettoyer et analyser les données. Grâce à cet article, les lecteurs peuvent apprendre comment utiliser Pandas pour lire des fichiers txt et comment effectuer le nettoyage, l'analyse et la visualisation des données.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!