Comment utiliser les fonctions courantes de la bibliothèque pandas pour l'analyse des données
Aperçu :
Avec l'avènement de l'ère du big data, l'analyse des données est devenue de plus en plus importante. En tant qu'outil puissant d'analyse des données Python, la bibliothèque Pandas fournit une multitude de fonctions pour traiter et analyser les données. Cet article présentera les fonctions couramment utilisées dans la bibliothèque Pandas et donnera des exemples de code spécifiques pour aider les lecteurs à mieux utiliser Pandas pour l'analyse des données.
Importation et visualisation de données
Pandas propose une variété de méthodes pour importer des données. Les méthodes couramment utilisées incluent la lecture de bases de données CSV, Excel et SQL, etc. La fonction la plus couramment utilisée est read_csv(). L'exemple de code est le suivant :
import pandas as pd # 从csv文件中导入数据 df = pd.read_csv('data.csv') # 查看数据的前几行 print(df.head(5)) # 查看数据的基本信息,包括列名、数据类型等 print(df.info())
Nettoyage des données
Avant d'effectuer une analyse des données, il est souvent nécessaire de nettoyer les données, notamment en traitant les valeurs manquantes, les valeurs en double et les valeurs aberrantes. Pandas fournit une multitude de fonctions pour aider au nettoyage des données. L'exemple de code est le suivant :
# 处理缺失值,填充为指定值 df.fillna(value=0, inplace=True) # 删除重复值 df.drop_duplicates(inplace=True) # 处理异常值,删除指定范围外的数据 df = df[(df['col'] >= 0) & (df['col'] <= 100)]
Filtrage et tri des données
Pandas fournit de puissantes fonctions de filtrage et de tri, qui peuvent sélectionner et trier les données en fonction de conditions. L'exemple de code est le suivant :
# 根据条件筛选数据 df_filtered = df[df['col'] > 0] # 根据某一列进行升序排序 df_sorted = df.sort_values(by='col', ascending=True)
Agrégation de données et statistiques
L'agrégation de données et les statistiques sont l'un des aspects essentiels de l'analyse des données. Pandas fournit une multitude de fonctions pour l'agrégation de données et l'analyse statistique. L'exemple de code est le suivant :
# 求取某一列的平均值 mean_val = df['col'].mean() # 求取某一列的总和 sum_val = df['col'].sum() # 统计某一列的唯一值及其出现次数 value_counts = df['col'].value_counts()
Visualisation des données
La visualisation des données permet d'afficher visuellement les résultats de l'analyse des données, et Pandas peut être intégré de manière transparente aux bibliothèques de visualisation telles que Matplotlib. L'exemple de code est le suivant :
import matplotlib.pyplot as plt # 绘制柱状图 df['col'].plot(kind='bar') # 绘制散点图 df.plot(kind='scatter', x='col1', y='col2') # 绘制折线图 df.plot(kind='line') # 显示图形 plt.show()
Résumé :
Pandas est un puissant outil d'analyse de données qui fournit une multitude de fonctions pour traiter et analyser les données. Cet article présente les fonctions couramment utilisées dans la bibliothèque Pandas et donne des exemples de code spécifiques. En maîtrisant ces fonctions communes, les lecteurs peuvent mieux utiliser Pandas pour l'analyse des données et ainsi mieux faire face aux défis de l'ère du big data.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!