Python中的PCA主成分分析（降维）技巧-Python教程-PHP中文网

Python中的PCA主成分分析（降维）技巧

王林

发布： 2023-06-09 21:57:06

原创

2847 人浏览过

Python中的PCA主成分分析（降维）技巧

PCA（Principal Component Analysis）主成分分析是一种非常常用的数据降维技术。通过PCA算法可以对数据进行处理，从而发现数据的固有特征，为后续的数据分析和建模提供更加准确和有效的数据集合。

下面我们将介绍Python中使用PCA主成分分析的一些技巧。

如何进行数据归一化

在进行PCA降维分析之前，首先需要进行数据的归一化处理。这是因为PCA算法是通过方差最大化来计算主成分的，而不是简单的元素值大小，因此充分考虑到了每个元素对应方差的影响。

Python中有许多方法可以进行数据归一化处理。最基本的方法是通过sklearn库的StandarScaler类将数据标准化为均值为0、方差为1的标准正态分布，代码如下：

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
data_std = scaler.fit_transform(data)

登录后复制

这样我们就可以得到一个已经进行数据归一化处理的数据集合data_std。

使用PCA进行降维

使用PCA对数据进行降维的代码非常简单。sklearn库中已经集成了PCA模块，我们只需要在调用PCA类时设置降维后保留的主成分数量即可。例如，下面的代码将数据降到2个主成分：

from sklearn.decomposition import PCA

pca = PCA(n_components=2)
data_pca = pca.fit_transform(data_std)

登录后复制

其中，data_pca返回的是经过PCA降维处理后的新数据。

如何选择降维后的主成分数量

在实际使用PCA进行数据降维时，我们需要选择合适的主成分数量以达到最佳的降维效果。通常情况下，我们可以通过绘制累计方差贡献率图来进行判断。

累计方差贡献率表示前n个主成分的方差之和占总方差的百分比，例如：

import numpy as np

pca = PCA()
pca.fit(data_std)

cum_var_exp = np.cumsum(pca.explained_variance_ratio_)

登录后复制

通过绘制累计方差贡献率图，我们可以观察到主成分数量从1开始逐渐增加时累计方差贡献率的变化趋势，以此来估计合适的主成分数量。代码如下：

import matplotlib.pyplot as plt

plt.bar(range(1, 6), pca.explained_variance_ratio_, alpha=0.5, align='center')
plt.step(range(1, 6), cum_var_exp, where='mid')
plt.ylabel('Explained variance ratio')
plt.xlabel('Principal components')
plt.show()

登录后复制

图中的红色线表示累计方差贡献率，x轴代表主成分数量，y轴表示解释的方差比例。可以发现，前两个主成分的方差贡献率已经接近于1，因此选择2个主成分就可以满足大部分分析任务的需求。

如何可视化PCA降维后的数据

最后，我们可以使用matplotlib库的scatter函数将PCA降维后的数据进行可视化。例如，下面的代码将数据由原来的4维通过PCA降维到2维，再进行可视化显示：

import matplotlib.pyplot as plt

x = data_pca[:, 0]
y = data_pca[:, 1]
labels = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']
colors = ['b', 'g', 'r', 'c', 'm', 'y', 'k', 'pink', 'brown', 'orange']

for i, label in enumerate(np.unique(labels)):
    plt.scatter(x[labels == label], y[labels == label], c=colors[i], label=label, alpha=0.7)

plt.legend()
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.show()

登录后复制

图中的颜色和标签分别对应于原始数据中的数字标签，通过可视化降维后的数据，我们可以更好地理解数据的结构和特征。

总之，使用PCA主成分分析技术可以帮助我们降低数据的维度，从而更好地理解数据的结构和特征。通过Python的sklearn和matplotlib库，我们可以非常方便地进行PCA算法的实现和可视化分析。

以上是Python中的PCA主成分分析（降维）技巧的详细内容。更多信息请关注PHP中文网其他相关文章！