So verwenden Sie allgemeine Funktionen in der Pandas-Bibliothek für die Datenanalyse
Übersicht:
Mit dem Aufkommen des Big-Data-Zeitalters ist die Datenanalyse immer wichtiger geworden. Als leistungsstarkes Tool zur Python-Datenanalyse bietet die Pandas-Bibliothek eine Fülle von Funktionen zur Verarbeitung und Analyse von Daten. In diesem Artikel werden häufig verwendete Funktionen in der Pandas-Bibliothek vorgestellt und spezifische Codebeispiele gegeben, um den Lesern zu helfen, Pandas besser für die Datenanalyse zu nutzen.
Datenimport und -anzeige
Pandas bietet eine Vielzahl von Methoden zum Importieren von Daten. Zu den häufig verwendeten Methoden gehören das Lesen von CSV-, Excel- und SQL-Datenbanken usw. Die am häufigsten verwendete Funktion ist read_csv(). Der Beispielcode lautet wie folgt:
import pandas as pd # 从csv文件中导入数据 df = pd.read_csv('data.csv') # 查看数据的前几行 print(df.head(5)) # 查看数据的基本信息,包括列名、数据类型等 print(df.info())
Datenbereinigung
Vor der Datenanalyse ist es häufig erforderlich, die Daten zu bereinigen, einschließlich der Verarbeitung fehlender Werte, doppelter Werte und Ausreißer. Pandas bietet eine Fülle von Funktionen, die bei der Datenbereinigung helfen. Der Beispielcode lautet wie folgt:
# 处理缺失值,填充为指定值 df.fillna(value=0, inplace=True) # 删除重复值 df.drop_duplicates(inplace=True) # 处理异常值,删除指定范围外的数据 df = df[(df['col'] >= 0) & (df['col'] <= 100)]
Datenfilterung und -sortierung
Pandas bietet leistungsstarke Filter- und Sortierfunktionen, mit denen Daten basierend auf Bedingungen ausgewählt und sortiert werden können. Der Beispielcode lautet wie folgt:
# 根据条件筛选数据 df_filtered = df[df['col'] > 0] # 根据某一列进行升序排序 df_sorted = df.sort_values(by='col', ascending=True)
Datenaggregation und Statistik
Datenaggregation und Statistik sind einer der Kernaspekte der Datenanalyse. Pandas bietet eine Fülle von Funktionen zur Datenaggregation und statistischen Analyse. Der Beispielcode lautet wie folgt:
# 求取某一列的平均值 mean_val = df['col'].mean() # 求取某一列的总和 sum_val = df['col'].sum() # 统计某一列的唯一值及其出现次数 value_counts = df['col'].value_counts()
Datenvisualisierung
Datenvisualisierung hilft bei der visuellen Darstellung von Datenanalyseergebnissen, und Pandas kann nahtlos in Visualisierungsbibliotheken wie Matplotlib integriert werden. Der Beispielcode lautet wie folgt:
import matplotlib.pyplot as plt # 绘制柱状图 df['col'].plot(kind='bar') # 绘制散点图 df.plot(kind='scatter', x='col1', y='col2') # 绘制折线图 df.plot(kind='line') # 显示图形 plt.show()
Zusammenfassung:
Pandas ist ein leistungsstarkes Datenanalysetool, das eine Fülle von Funktionen zur Verarbeitung und Analyse von Daten bietet. In diesem Artikel werden häufig verwendete Funktionen in der Pandas-Bibliothek vorgestellt und spezifische Codebeispiele aufgeführt. Durch die Beherrschung dieser allgemeinen Funktionen können Leser Pandas besser für die Datenanalyse nutzen und so die Herausforderungen des Big-Data-Zeitalters besser bewältigen.
Das obige ist der detaillierte Inhalt vonSo verwenden Sie grundlegende Funktionen in der Pandas-Bibliothek für die Datenanalyse. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!