Utilisez pandas pour lire des fichiers Excel et mettre en œuvre facilement l'importation et l'analyse de données
pandas est un outil puissant d'analyse de données en Python. Il peut traiter des données dans différents formats de manière flexible et efficace. Dans l'analyse des données, Excel est un format de données couramment utilisé, et pandas fournit une interface pratique qui nous permet d'importer rapidement des fichiers Excel dans les données, ainsi que d'analyser et de traiter les données.
Cet article expliquera comment utiliser la bibliothèque pandas pour lire des fichiers Excel et comment utiliser pandas pour l'analyse de données, tout en fournissant des exemples de code.
1. Lecture de fichiers Excel
Pour lire des fichiers Excel, vous pouvez utiliser la fonction read_excel fournie par pandas, qui peut lire directement les fichiers Excel et les convertir en types de données DataFrame. Voici un exemple de code pour lire un fichier Excel :
import pandas as pd # 读取Excel文件 filename = 'data.xlsx' df = pd.read_excel(filename) # 查看数据前5行 print(df.head())
Dans le code ci-dessus, nous avons d'abord importé la bibliothèque pandas et spécifié l'alias comme pd. Utilisez ensuite la fonction pd.read_excel pour lire le fichier data.xlsx et stocker les données lues dans un DataFrame nommé df. Enfin, utilisez la méthode head pour afficher les 5 premières lignes de données.
2. Analyse des données
# 删除含有缺失值的行 df = df.dropna() # 删除重复行 df = df.drop_duplicates() # 转换数据类型为float df['column1'] = df['column1'].astype(float) # 查看数据信息 print(df.info())
Dans le code ci-dessus, nous utilisons d'abord la méthode dropna pour supprimer toutes les lignes contenant des valeurs manquantes, puis utilisons la méthode drop_duplicates pour supprimer les lignes en double. Ensuite, utilisez la méthode astype pour convertir le type de données de column1 en type float. Enfin, utilisez la méthode info pour afficher les informations sur les données.
L'analyse statistique est l'une des étapes clés de l'analyse des données. Pandas fournit une variété de méthodes pour réaliser une analyse statistique des données.
Ce qui suit est un exemple de code d'analyse de données :
# 计算各列的平均值、标准差、最大/最小值 print(df.mean()) print(df.std()) print(df.max()) print(df.min()) # 按照一列的值进行分组,并计算每组中数据的平均值 print(df.groupby('column1').mean()) # 绘制柱状图 df['column1'].plot(kind='bar')
Dans le code ci-dessus, nous utilisons la moyenne, std, max et min pour calculer respectivement la moyenne, l'écart type et les valeurs maximales/minimales de chaque colonne. Utilisez ensuite la méthode groupby pour regrouper selon la valeur de la colonne 1 et calculer la moyenne des données dans chaque groupe. Enfin, utilisez la méthode plot pour dessiner un histogramme.
3. Résumé
Cet article explique comment utiliser les pandas pour lire des fichiers Excel et traiter et analyser les données. Pandas propose de nombreuses opérations pratiques pour rendre l'analyse des données plus facile et plus efficace. Pour les travaux d’analyse et d’exploration de données, l’apprentissage des pandas sera très utile.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!