Comment Pandas lit les fichiers Excel et traite les données
Introduction :
Pandas est un outil de traitement et d'analyse de données couramment utilisé. Il offre une multitude de fonctions et de méthodes pour permettre aux utilisateurs de nettoyer, transformer et analyser les données. Dans le travail réel, nous devons souvent traiter des fichiers de données au format Excel. Cet article explique comment utiliser Pandas pour lire des fichiers Excel et traiter et analyser les données.
1. Installer et importer la bibliothèque Pandas
Avant de commencer, nous devons d'abord installer la bibliothèque Pandas. Vous pouvez utiliser la commande suivante pour installer Pandas via pip :
pip install pandas
Une fois l'installation terminée, vous pouvez importer la bibliothèque Pandas via le code suivant :
import pandas as pd
2. Lire les fichiers Excel
Il existe deux méthodes couramment utilisées pour lire Excel fichiers : read_excel() et read_csv(). Dans cet article, nous utiliserons la méthode read_excel() pour lire les fichiers Excel.
Supposons que notre fichier Excel s'appelle data.xlsx et contienne une feuille de calcul nommée Sheet1. Nous pouvons lire le fichier Excel en utilisant le code suivant :
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
Une fois la lecture terminée, les données seront stockées dans l'objet DataFrame df.
3. Traitement et analyse des données
Après avoir lu le fichier Excel, nous pouvons utiliser diverses fonctions et méthodes de Pandas pour nettoyer, convertir et analyser les données.
Afficher les données
Vous pouvez utiliser le code suivant pour afficher les premières lignes des données :
print(df.head())
Statistiques de base
Vous pouvez utiliser la fonction décrire() pour afficher les statistiques de base des données, telles que valeur minimale, valeur maximale, valeur moyenne, etc. :
print(df.describe())
Filtrage des données
Vous pouvez utiliser le code suivant pour filtrer un sous-ensemble de données qui remplit les conditions :
subset = df[df['列名'] > 50] print(subset)
Tri des données
Vous pouvez utiliser le Fonction sort_values() pour trier les données, comme le tri par ordre croissant selon une certaine colonne :
sorted_df = df.sort_values(by='列名', ascending=True) print(sorted_df)
Regroupement de données
Vous pouvez utiliser la fonction groupby() pour regrouper les données et effectuer des opérations d'agrégation, telles que des sommes, des moyennes , etc. :
grouped_df = df.groupby('列名').sum() print(grouped_df)
Visualisation des données
Vous pouvez utiliser la fonction plot() fournie par Pandas pour regrouper les données. Effectuer une visualisation, comme dessiner des histogrammes, des graphiques linéaires, etc. :
df.plot(kind='bar', x='列名', y='列名')
4. Enregistrer les résultats
Après avoir terminé le traitement et l'analyse des données, nous pouvons utiliser le code suivant pour enregistrer les résultats dans un fichier Excel :
df.to_excel('result.xlsx', index=False)
Résumé :
Cet article présente comment utiliser Pandas pour lire des fichiers Excel et traiter des données, et donne le code exemples. Grâce aux fonctions et méthodes puissantes de Pandas, nous pouvons facilement nettoyer, convertir et analyser les données Excel, améliorant ainsi l'efficacité et la précision du traitement des données.
Ce qui précède est une introduction à la façon dont Pandas lit les fichiers Excel et traite les données. J'espère que cela sera utile aux lecteurs. Merci d'avoir lu!
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!