學習Python資料視覺化的好例子分享！-Python教學-PHP中文網

學習Python資料視覺化的好例子分享！

WBOY

發布： 2023-04-25 23:04:05

轉載

978 人瀏覽過

學習Python資料視覺化的好例子分享！

大家好，我是J哥。（文末送書）

利用視覺化探索圖表

一、資料視覺化與探索圖

資料視覺化是指用圖形或表格的方式來呈現資料。圖表能夠清楚呈現資料性質，以及資料間或屬性間的關係，可以輕易地讓人看圖釋義。使用者透過探索圖（Exploratory Graph）可以了解資料的特性、尋找資料的趨勢、降低資料的理解門檻。

二、常見的圖表實例

本章主要採用 Pandas 的方式來畫圖，而不是使用 Matplotlib 模組。其實 Pandas 已經把 Matplotlib 的畫圖方法整合到 DataFrame 中，因此在實際應用中，使用者不需要直接引用 Matplotlib 也可以完成畫圖的工作。

1.折線圖

折線圖（line chart）是最基本的圖表，可以用來呈現不同欄位連續資料之間的關係。繪製折線圖使用的是 plot.line() 的方法，可以設定顏色、形狀等參數。在使用上，拆線圖繪製方法完全繼承了 Matplotlib 的用法，所以程式最後也必須呼叫 plt.show() 產生圖，如圖8.4 所示。

df_iris[['sepal length (cm)']].plot.line()
plt.show()
ax = df[['sepal length (cm)']].plot.line(color='green',title="Demo",style='--')
ax.set(xlabel="index", ylabel="length")
plt.show()

登入後複製

學習Python資料視覺化的好例子分享！

2.散佈圖

散佈圖（Scatter Chart）用於檢視不同欄位離散資料之間的關係。繪製散佈圖使用的是 df.plot.scatter()，如圖8.5所示。

df = df_iris
df.plot.scatter(x='sepal length (cm)', y='sepal width (cm)')
from matplotlib import cm
cmap = cm.get_cmap('Spectral')
df.plot.scatter(x='sepal length (cm)',
y='sepal width (cm)',
s=df[['petal length (cm)']]*20,
c=df['target'],
cmap=cmap,
title='different circle size by petal length (cm)')

登入後複製

學習Python資料視覺化的好例子分享！

3.直方圖、長條圖

直方圖（Histogram Chart）通常用於同一欄位，呈現連續資料的分佈狀況，與直方圖類似的另一種圖是長條圖（Bar Chart），用於檢視同一欄位，如圖8.6 所示。

df[['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)','petal width (cm)']].plot.hist()
2 df.target.value_counts().plot.bar()

登入後複製

學習Python資料視覺化的好例子分享！

4. 圓餅圖、箱形圖

圓餅圖（Pie Chart）可以用來檢視同一欄位各類別所佔的比例，而箱型圖（Box Chart）則用於檢視同一欄位或比較不同欄位資料的分佈差異，如圖8.7 所示。

df.target.value_counts().plot.pie(legend=True)
df.boxplot(column=['target'],ﬁgsize=(10,5))

登入後複製

學習Python資料視覺化的好例子分享！

資料探索實戰分享

本節利用兩個真實的資料集實際展示資料探索的幾種手法。

一、2013年美國社區調查

在美國社區調查（American Community Survey）中，每年約有350 萬個家庭被問到關於他們是誰及他們如何生活的詳細問題。調查的內容涵蓋了許多主題，包括祖先、教育、工作、交通、網路使用和居住。

資料來源：https://www.kaggle.com/census/2013-american-community-survey。

資料名稱：2013 American Community Survey。

先觀察資料的樣子與特性，以及每個欄位所代表的意義、種類和範圍。

# 读取数据
df = pd.read_csv("./ss13husa.csv")
# 栏位种类数量
df.shape
# (756065,231)
# 栏位数值范围
df.describe()

登入後複製

先將兩個ss13pusa.csv 串連起來，這份數據總共包含30 萬筆數據，3 個欄位：SCHL ( 學歷，School Level)、 PINCP ( 收入，Income) 和ESR (工作狀態，Work Status)。

pusa = pd.read_csv("ss13pusa.csv") pusb = pd.read_csv("ss13pusb.csv")
# 串接两份数据
col = ['SCHL','PINCP','ESR']
df['ac_survey'] = pd.concat([pusa[col],pusb[col],axis=0)

登入後複製

依據學歷將資料分群，觀察不同學歷的數量比例，接著計算他們的平均收入。

group = df['ac_survey'].groupby(by=['SCHL']) print('学历分布:' + group.size())
group = ac_survey.groupby(by=['SCHL']) print('平均收入:' +group.mean())

登入後複製

二、波士頓房屋資料集

波士頓房屋資料集（Boston House Price Dataset）包含有關波士頓地區的房屋信息，包 506 個資料樣本和 13 個特徵維度。

資料來源：https://archive.ics.uci.edu/ml/machine-learning-databases/housing/。

資料名稱：Boston House Price Dataset。

先觀察資料的樣子與特性，以及每個欄位所代表的意義、種類和範圍。

可以用直方圖的方式畫出房價（MEDV）的分佈，如圖 8.8 所示。

df = pd.read_csv("./housing.data")
# 栏位种类数量
df.shape
# (506, 14)
#栏位数值范围df.describe()
import matplotlib.pyplot as plt
df[['MEDV']].plot.hist()
plt.show()

登入後複製

學習Python資料視覺化的好例子分享！

附註：圖中英文對應筆者在程式碼或資料中指定的名字，實作中讀者可將它們替換成自己需要的文字。

接下來需要知道的是哪些維度與「房價」關係明顯。先用散佈圖的方式來觀察，如圖8.9所示。

# draw scatter chart
df.plot.scatter(x='MEDV', y='RM') .
plt.show()

登入後複製

學習Python資料視覺化的好例子分享！

最后，计算相关系数并用聚类热图（Heatmap）来进行视觉呈现，如图 8.10 所示。

# compute pearson correlation
corr = df.corr()
# drawheatmap
import seaborn as sns
corr = df.corr()
sns.heatmap(corr)
plt.show()

登入後複製

學習Python資料視覺化的好例子分享！

颜色为红色，表示正向关系；颜色为蓝色，表示负向关系；颜色为白色，表示没有关系。RM 与房价关联度偏向红色，为正向关系；LSTAT、PTRATIO 与房价关联度偏向深蓝，为负向关系；CRIM、RAD、AGE 与房价关联度偏向白色，为没有关系。

声明：本文选自清华大学出版社的《深入浅出python数据分析》一书，略有修改，经出版社授权刊登于此。

以上是學習Python資料視覺化的好例子分享！的詳細內容。更多資訊請關注PHP中文網其他相關文章！