利用pandas讀取Excel文件，輕鬆實現資料導入與分析-Python教學-PHP中文網

利用pandas讀取Excel文件，輕鬆實現資料導入與分析

PHPz

發布： 2024-01-19 10:02:06

原創

1293 人瀏覽過

利用pandas讀取Excel文件，輕鬆實現資料導入與分析

pandas是Python中用於資料分析的強大工具，它可以對各種格式的數據進行靈活高效的處理。在數據分析中，Excel是一種常用的數據格式，pandas提供了方便的接口，使得我們可以快速將Excel文件導入數據，並對數據進行分析和處理。

本文將介紹如何使用pandas函式庫讀取Excel文件，以及如何使用pandas進行資料分析，同時提供程式碼範例。

一、讀取Excel檔案
讀取Excel檔案可以使用pandas提供的read_excel函數，該函數可以直接讀取Excel檔案並將其轉換為DataFrame資料類型。下面是一個讀取Excel檔案的程式碼範例：

import pandas as pd

# 读取Excel文件
filename = 'data.xlsx'
df = pd.read_excel(filename)

# 查看数据前5行
print(df.head())

登入後複製

在上述程式碼中，我們先匯入了pandas函式庫，並指定別名為pd。接著使用pd.read_excel函數讀取檔案data.xlsx，並將讀取的資料儲存在名為df的DataFrame中。最後使用head方法查看前5行資料。

二、資料分析

資料預處理
資料導入之後，我們需要進行資料預處理。資料預處理包括清洗資料、填入缺失值、去重、轉換資料類型等操作。以下是資料預處理的範例程式碼：

# 删除含有缺失值的行
df = df.dropna()

# 删除重复行
df = df.drop_duplicates()

# 转换数据类型为float
df['column1'] = df['column1'].astype(float)

# 查看数据信息
print(df.info())

登入後複製

在上述程式碼中，我們先使用dropna方法刪除所有含有缺失值的行，然後使用drop_duplicates方法刪除重複行。接著，使用astype方法將column1列的資料型別轉換為float型別。最後使用info方法查看資料資訊。

統計分析

統計分析是資料分析的關鍵步驟之一，pandas提供了多種方法來實現資料的統計分析。

以下是一個資料分析範例程式碼：

# 计算各列的平均值、标准差、最大/最小值
print(df.mean())
print(df.std())
print(df.max())
print(df.min())

# 按照一列的值进行分组，并计算每组中数据的平均值
print(df.groupby('column1').mean())

# 绘制柱状图
df['column1'].plot(kind='bar')

登入後複製

上述程式碼中，我們使用mean、std、max、min分別計算各列的平均值、標準差、最大/最小值。接著使用groupby方法依照column1列的數值進行分組，並計算每組資料的平均值。最後使用plot方法繪製長條圖。

三、總結
本文介紹如何使用pandas讀取Excel文件，並對資料進行處理與分析。 pandas提供了許多便捷的操作，使得資料分析變得更加簡單和有效率。對於資料分析和挖掘的工作，學習pandas將會十分有用。

以上是利用pandas讀取Excel文件，輕鬆實現資料導入與分析的詳細內容。更多資訊請關注PHP中文網其他相關文章！