Avec la popularité croissante du traitement des données, de plus en plus de personnes s'intéressent à la manière d'utiliser les données efficacement et de les faire fonctionner pour elles-mêmes. Dans le traitement quotidien des données, les tableaux Excel sont sans aucun doute le format de données le plus répandu. Cependant, lorsqu’une grande quantité de données doit être traitée, l’utilisation manuelle d’Excel deviendra évidemment très longue et laborieuse. Par conséquent, cet article présentera un outil de traitement de données efficace - les pandas, et comment utiliser cet outil pour lire rapidement des fichiers Excel et effectuer un traitement de données.
1. Introduction à pandas
pandas est un puissant outil d'analyse de données Python qui fournit un large éventail de fonctions de lecture, de traitement et d'analyse de données. Les principales structures de données des pandas sont DataFrame et Series, qui peuvent lire directement des fichiers dans des formats courants tels qu'Excel et CSV et effectuer diverses opérations de traitement de données. Par conséquent, pandas est largement utilisé dans le domaine du traitement des données et est connu comme l’un des principaux outils d’analyse des données Python.
2. La méthode de base pour lire les fichiers Excel dans les pandas
Dans les pandas, la fonction principale pour lire les fichiers Excel est read_excel, qui peut lire les données du tableau Excel et les convertir en un objet DataFrame. Le code est le suivant :
import pandas as pd data = pd.read_excel('test.xlsx', sheet_name='Sheet1')
Dans le code ci-dessus, test.xlsx est le nom du fichier Excel à lire, et Sheet1 est le nom de la Feuille à lire. De cette manière, data est un objet DataFrame, qui contient les données du tableau Excel.
3. Techniques efficaces pour lire des fichiers Excel avec des pandas
Bien que la méthode de lecture de base des pandas ait permis de gagner beaucoup de temps par rapport au fonctionnement manuel d'Excel, lors du traitement de grandes quantités de données, nous pouvons optimiser davantage le processus de lecture d'Excel. des dossiers.
1. Utiliser les paramètres skiprows et nrows
Nous pouvons utiliser les paramètres skiprows et nrows pour sauter des lignes dans le tableau et lire un nombre spécifié de lignes. Par exemple, le code suivant peut lire les données de la ligne 2 à la ligne 1001 du tableau :
data = pd.read_excel('test.xlsx', sheet_name='Sheet1', skiprows=1, nrows=1000)
De cette façon, nous ne pouvons lire qu'une partie des données, économisant ainsi du temps de lecture et de la consommation de mémoire.
2. Utilisez le paramètre usecols
Si nous n'avons besoin que de certaines colonnes de données dans le tableau, nous pouvons utiliser le paramètre usecols pour lire uniquement les colonnes spécifiées. Par exemple, le code suivant ne lit que les colonnes A et B du tableau :
data = pd.read_excel('test.xlsx', sheet_name='Sheet1', usecols=['A', 'B'])
De cette façon, nous pouvons nous concentrer sur les colonnes de données qui doivent être traitées et éviter de lire des données inutiles.
3. Utiliser les paramètres chunksize et itérateur
Lorsque le fichier Excel lu est volumineux, nous pouvons utiliser les paramètres chunksize et itérateur pour lire les données en blocs. Par exemple, le code suivant peut lire 1 000 lignes de données à la fois :
for i in pd.read_excel('test.xlsx', sheet_name='Sheet1', chunksize=1000): # 处理代码
De cette façon, nous pouvons lire les données bloc par bloc et les traiter par lots pour améliorer l'efficacité du traitement des données.
4. Exemple complet
Ce qui suit est un exemple de code complet permettant aux pandas de lire un fichier Excel. Ce code peut lire toutes les données de la feuille 1 dans test.xlsx, puis calculer la somme des colonnes A et B et afficher le résultat. :
import pandas as pd data = pd.read_excel('test.xlsx', sheet_name='Sheet1') result = pd.DataFrame([{'sum_A': data['A'].sum(), 'sum_B': data['B'].sum()}]) result.to_excel('result.xlsx', index=False)
Dans le code ci-dessus, nous avons d'abord lu la feuille 1 de l'intégralité du fichier test.xlsx, puis utilisé la fonction sum pour calculer la somme des colonnes A et B, et stocké le résultat dans un objet DataFrame. Enfin, nous écrivons les résultats dans un nouveau fichier Excel result.xlsx, qui contient une seule ligne de données, la première colonne étant la somme de la colonne A et la deuxième colonne étant la somme de la colonne B.
Résumé
Grâce à l'introduction ci-dessus, nous pouvons voir que l'utilisation de pandas pour lire des fichiers Excel peut considérablement améliorer l'efficacité du traitement des données, et que le processus de lecture et de traitement des données peut être encore optimisé à l'aide de divers paramètres et méthodes avancés fournis. par des pandas. Ainsi, dans le domaine de l’analyse et du traitement des données, l’utilisation de pandas est un outil très efficace et pratique.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!