Python中的聚类分析实例-Python教程-PHP中文网

首页

后端开发

Python教程

Python中的聚类分析实例

王林

Jun 10, 2023 pm 12:30 PM

python 实例聚类分析

聚类分析是一种常用的数据分析方法，可以将数据集划分为不同的组或类别。Python 提供了多种聚类算法，我们可以根据不同的需求选择不同的算法进行分析。本文将介绍一些 Python 中常用的聚类算法，并给出实例应用。

一、K-Means 算法

K-Means 算法是一个常用的聚类算法，根据欧几里得距离对数据进行分组。该算法将数据集分为 k 个簇，其中每个簇的中心点是簇中所有成员的均值。算法的具体步骤如下：

随机选择 k 个点作为初始的簇中心。
计算所有数据点与簇中心的距离，并将每个数据点归为距离最近的簇。
根据新的归类结果，重新计算每个簇的中心点。
重复第 2 步和第 3 步，直到簇不再发生变化或者达到指定的迭代次数。

下面是一个使用 K-Means 算法进行聚类分析的 Python 实例：

import numpy as np
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# 生成随机数据
X, y = make_blobs(n_samples=300, centers=4, random_state=42)

# 运行 K-Means 算法
kmeans = KMeans(n_clusters=4, random_state=42)
y_pred = kmeans.fit_predict(X)

# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.title("K-Means Clustering")
plt.show()

上述代码中，使用 make_blobs 函数生成了一个包含 300 个样本点的数据集，共包含 4 个簇。然后使用 KMeans 函数进行聚类，指定簇的数量为 4，并通过 fit_predict 方法得到每个数据点的分类结果。最后使用 Matplotlib 绘制聚类结果。

二、层次聚类算法

层次聚类算法是一种自底向上的聚类算法，根据数据的相似度，将数据逐步合并为更大的簇。该算法的具体步骤如下：

将每个数据点看作一个单独的簇。
计算两个距离最近的簇之间的距离。
将距离最近的两个簇合并为一个新簇。
重复第 2 步和第 3 步，直到将所有簇合并为一个簇或者达到指定的聚类数量。

下面是一个使用层次聚类算法进行聚类分析的 Python 实例：

from sklearn.cluster import AgglomerativeClustering
from sklearn.datasets import make_moons
import matplotlib.pyplot as plt

# 生成随机数据
X, y = make_moons(n_samples=200, noise=0.05, random_state=42)

# 运行层次聚类算法
agglomerative = AgglomerativeClustering(n_clusters=2)
y_pred = agglomerative.fit_predict(X)

# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.title("Agglomerative Clustering")
plt.show()

上述代码中，使用 make_moons 函数生成了一个包含 200 个样本点的数据集，并使用 AgglomerativeClustering 函数进行聚类，指定簇的数量为 2。最后使用 Matplotlib 绘制聚类结果。

三、DBSCAN 算法

DBSCAN 算法是一种基于密度的聚类算法，可以根据数据集的密度将数据点分为不同的簇。算法的具体步骤如下：

随机选择一个未访问的数据点作为核心点。
找出与核心点距离不超过给定半径的所有点，作为一个以该核心点为中心的密度可达区域。
如果一个点在另一个核心点的密度可达区域内，则将其和该核心点合并为一个簇。
重复第 1 步到第 3 步，直到没有新的核心点被访问。

下面是一个使用 DBSCAN 算法进行聚类分析的 Python 实例：

from sklearn.cluster import DBSCAN
from sklearn.datasets import make_moons
import matplotlib.pyplot as plt

# 生成随机数据
X, y = make_moons(n_samples=200, noise=0.05, random_state=42)

# 运行 DBSCAN 算法
dbscan = DBSCAN(eps=0.2, min_samples=5)
y_pred = dbscan.fit_predict(X)

# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.title("DBSCAN Clustering")
plt.show()

上述代码中，使用 make_moons 函数生成了一个包含 200 个样本点的数据集，并使用 DBSCAN 函数进行聚类，指定了半径和最小样本数的阈值。最后使用 Matplotlib 绘制聚类结果。

总结

本文介绍了 Python 中的三种常用聚类算法，并给出了相应的实例应用。聚类算法是一种十分有用的数据分析方法，可以帮助我们发现数据中的隐藏模式和关系。在实际应用中，我们可以根据数据的特点和需求选择不同的算法进行分析。

以上是Python中的聚类分析实例的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

PHP教程

1592

276

显示更多

Related knowledge

如何处理不适合内存的Python中的大型数据集？ Aug 14, 2025 pm 01:00 PM

当Python中处理超出内存的大型数据集时，不能一次性加载到RAM中，而应采用分块处理、磁盘存储或流式处理等策略；可通过Pandas的chunksize参数分块读取CSV文件并逐块处理，使用Dask实现类似Pandas语法的并行化和任务调度以支持大内存数据操作，编写生成器函数逐行读取文本文件减少内存占用，利用Parquet列式存储格式结合PyArrow高效读取特定列或行组，使用NumPy的memmap对大型数值数组进行内存映射以按需访问数据片段，或将数据存入SQLite或DuckDB等轻量级数据

如何在Sublime文本中调试Python代码？ Aug 14, 2025 pm 04:51 PM

UseSublimeText’sbuildsystemtorunPythonscriptsandcatcherrorsbypressingCtrl Baftersettingthecorrectbuildsystemorcreatingacustomone.2.Insertstrategicprint()statementstocheckvariablevalues,types,andexecutionflow,usinglabelsandrepr()forclarity.3.Installth

如何在Sublime文本中运行Python代码？ Aug 16, 2025 am 04:58 AM

确保已安装Python并将其添加到系统PATH，通过终端运行python--version或python3--version验证；2.将Python文件保存为.py扩展名，如hello.py；3.在SublimeText中创建自定义构建系统，Windows用户使用{"cmd":["python","-u","$file"]}，macOS/Linux用户使用{"cmd":["python3

如何在VScode中调试Python脚本 Aug 16, 2025 am 02:53 AM

要调试Python脚本，需先安装Python扩展并配置解释器，然后创建launch.json文件设置调试配置，接着在代码中设置断点并按F5启动调试，脚本将在断点处暂停，允许检查变量和单步执行，最终通过查看控制台输出、添加日志或调整参数等方式排查问题，确保环境正确后调试过程简单高效。

如何在VSCODE中自动格式化Python代码 Aug 14, 2025 pm 04:10 PM

toAutomation formatemationalformatpytpythoncodeinvscode，installblackusingpipinstallblack，installtheofficialmicrosoftpythonextension，setblackastheformatterinsettings.jsonwith“ python.formatting.formatting.provider”

如何在Sublime文本中创建一个Python项目？ Aug 16, 2025 am 08:53 AM

InstallSublimeTextandPython,thenconfigureabuildsystembycreatingaPython3.sublime-buildfilewiththeappropriatecmdandselectorsettingstoenablerunningPythonscriptsviaCtrl B.2.OrganizeyourprojectbycreatingadedicatedfolderwithPythonfilesandsupportingdocument

python asyncio队列示例 Aug 21, 2025 am 02:13 AM

asyncio.Queue是用于异步任务间安全通信的队列工具，1.生产者通过awaitqueue.put(item)添加数据，消费者用awaitqueue.get()获取数据；2.每处理完一项需调用queue.task_done()，以便queue.join()等待所有任务完成；3.使用None作为结束信号通知消费者停止；4.多个消费者时，需发送多个结束信号或在取消任务前确保所有任务已处理完毕；5.队列支持设置maxsize限制容量，put和get操作自动挂起不阻塞事件循环，程序最终通过canc

Python中的类方法是什么 Aug 21, 2025 am 04:12 AM

ClassmethodsinPythonareboundtotheclassandnottoinstances,allowingthemtobecalledwithoutcreatinganobject.1.Theyaredefinedusingthe@classmethoddecoratorandtakeclsasthefirstparameter,referringtotheclassitself.2.Theycanaccessclassvariablesandarecommonlyused

See all articles

Python中的聚类分析实例

热AI工具

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题