首页 后端开发 Python教程 Python中的聚类分析实例

Python中的聚类分析实例

Jun 10, 2023 pm 12:30 PM
python 实例 聚类分析

聚类分析是一种常用的数据分析方法,可以将数据集划分为不同的组或类别。Python 提供了多种聚类算法,我们可以根据不同的需求选择不同的算法进行分析。本文将介绍一些 Python 中常用的聚类算法,并给出实例应用。

一、K-Means 算法

K-Means 算法是一个常用的聚类算法,根据欧几里得距离对数据进行分组。该算法将数据集分为 k 个簇,其中每个簇的中心点是簇中所有成员的均值。算法的具体步骤如下:

  1. 随机选择 k 个点作为初始的簇中心。
  2. 计算所有数据点与簇中心的距离,并将每个数据点归为距离最近的簇。
  3. 根据新的归类结果,重新计算每个簇的中心点。
  4. 重复第 2 步和第 3 步,直到簇不再发生变化或者达到指定的迭代次数。

下面是一个使用 K-Means 算法进行聚类分析的 Python 实例:

import numpy as np
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# 生成随机数据
X, y = make_blobs(n_samples=300, centers=4, random_state=42)

# 运行 K-Means 算法
kmeans = KMeans(n_clusters=4, random_state=42)
y_pred = kmeans.fit_predict(X)

# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.title("K-Means Clustering")
plt.show()

上述代码中,使用 make_blobs 函数生成了一个包含 300 个样本点的数据集,共包含 4 个簇。然后使用 KMeans 函数进行聚类,指定簇的数量为 4,并通过 fit_predict 方法得到每个数据点的分类结果。最后使用 Matplotlib 绘制聚类结果。

二、层次聚类算法

层次聚类算法是一种自底向上的聚类算法,根据数据的相似度,将数据逐步合并为更大的簇。该算法的具体步骤如下:

  1. 将每个数据点看作一个单独的簇。
  2. 计算两个距离最近的簇之间的距离。
  3. 将距离最近的两个簇合并为一个新簇。
  4. 重复第 2 步和第 3 步,直到将所有簇合并为一个簇或者达到指定的聚类数量。

下面是一个使用层次聚类算法进行聚类分析的 Python 实例:

from sklearn.cluster import AgglomerativeClustering
from sklearn.datasets import make_moons
import matplotlib.pyplot as plt

# 生成随机数据
X, y = make_moons(n_samples=200, noise=0.05, random_state=42)

# 运行层次聚类算法
agglomerative = AgglomerativeClustering(n_clusters=2)
y_pred = agglomerative.fit_predict(X)

# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.title("Agglomerative Clustering")
plt.show()

上述代码中,使用 make_moons 函数生成了一个包含 200 个样本点的数据集,并使用 AgglomerativeClustering 函数进行聚类,指定簇的数量为 2。最后使用 Matplotlib 绘制聚类结果。

三、DBSCAN 算法

DBSCAN 算法是一种基于密度的聚类算法,可以根据数据集的密度将数据点分为不同的簇。算法的具体步骤如下:

  1. 随机选择一个未访问的数据点作为核心点。
  2. 找出与核心点距离不超过给定半径的所有点,作为一个以该核心点为中心的密度可达区域。
  3. 如果一个点在另一个核心点的密度可达区域内,则将其和该核心点合并为一个簇。
  4. 重复第 1 步到第 3 步,直到没有新的核心点被访问。

下面是一个使用 DBSCAN 算法进行聚类分析的 Python 实例:

from sklearn.cluster import DBSCAN
from sklearn.datasets import make_moons
import matplotlib.pyplot as plt

# 生成随机数据
X, y = make_moons(n_samples=200, noise=0.05, random_state=42)

# 运行 DBSCAN 算法
dbscan = DBSCAN(eps=0.2, min_samples=5)
y_pred = dbscan.fit_predict(X)

# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.title("DBSCAN Clustering")
plt.show()

上述代码中,使用 make_moons 函数生成了一个包含 200 个样本点的数据集,并使用 DBSCAN 函数进行聚类,指定了半径和最小样本数的阈值。最后使用 Matplotlib 绘制聚类结果。

总结

本文介绍了 Python 中的三种常用聚类算法,并给出了相应的实例应用。聚类算法是一种十分有用的数据分析方法,可以帮助我们发现数据中的隐藏模式和关系。在实际应用中,我们可以根据数据的特点和需求选择不同的算法进行分析。

以上是Python中的聚类分析实例的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

PHP教程
1592
276
如何处理不适合内存的Python中的大型数据集? 如何处理不适合内存的Python中的大型数据集? Aug 14, 2025 pm 01:00 PM

当Python中处理超出内存的大型数据集时,不能一次性加载到RAM中,而应采用分块处理、磁盘存储或流式处理等策略;可通过Pandas的chunksize参数分块读取CSV文件并逐块处理,使用Dask实现类似Pandas语法的并行化和任务调度以支持大内存数据操作,编写生成器函数逐行读取文本文件减少内存占用,利用Parquet列式存储格式结合PyArrow高效读取特定列或行组,使用NumPy的memmap对大型数值数组进行内存映射以按需访问数据片段,或将数据存入SQLite或DuckDB等轻量级数据

如何在Sublime文本中调试Python代码? 如何在Sublime文本中调试Python代码? Aug 14, 2025 pm 04:51 PM

UseSublimeText’sbuildsystemtorunPythonscriptsandcatcherrorsbypressingCtrl Baftersettingthecorrectbuildsystemorcreatingacustomone.2.Insertstrategicprint()statementstocheckvariablevalues,types,andexecutionflow,usinglabelsandrepr()forclarity.3.Installth

如何在Sublime文本中运行Python代码? 如何在Sublime文本中运行Python代码? Aug 16, 2025 am 04:58 AM

确保已安装Python并将其添加到系统PATH,通过终端运行python--version或python3--version验证;2.将Python文件保存为.py扩展名,如hello.py;3.在SublimeText中创建自定义构建系统,Windows用户使用{"cmd":["python","-u","$file"]},macOS/Linux用户使用{"cmd":["python3

如何在VScode中调试Python脚本 如何在VScode中调试Python脚本 Aug 16, 2025 am 02:53 AM

要调试Python脚本,需先安装Python扩展并配置解释器,然后创建launch.json文件设置调试配置,接着在代码中设置断点并按F5启动调试,脚本将在断点处暂停,允许检查变量和单步执行,最终通过查看控制台输出、添加日志或调整参数等方式排查问题,确保环境正确后调试过程简单高效。

如何在VSCODE中自动格式化Python代码 如何在VSCODE中自动格式化Python代码 Aug 14, 2025 pm 04:10 PM

toAutomation formatemationalformatpytpythoncodeinvscode,installblackusingpipinstallblack,installtheofficialmicrosoftpythonextension,setblackastheformatterinsettings.jsonwith“ python.formatting.formatting.provider”

如何在Sublime文本中创建一个Python项目? 如何在Sublime文本中创建一个Python项目? Aug 16, 2025 am 08:53 AM

InstallSublimeTextandPython,thenconfigureabuildsystembycreatingaPython3.sublime-buildfilewiththeappropriatecmdandselectorsettingstoenablerunningPythonscriptsviaCtrl B.2.OrganizeyourprojectbycreatingadedicatedfolderwithPythonfilesandsupportingdocument

python asyncio队列示例 python asyncio队列示例 Aug 21, 2025 am 02:13 AM

asyncio.Queue是用于异步任务间安全通信的队列工具,1.生产者通过awaitqueue.put(item)添加数据,消费者用awaitqueue.get()获取数据;2.每处理完一项需调用queue.task_done(),以便queue.join()等待所有任务完成;3.使用None作为结束信号通知消费者停止;4.多个消费者时,需发送多个结束信号或在取消任务前确保所有任务已处理完毕;5.队列支持设置maxsize限制容量,put和get操作自动挂起不阻塞事件循环,程序最终通过canc

Python中的类方法是什么 Python中的类方法是什么 Aug 21, 2025 am 04:12 AM

ClassmethodsinPythonareboundtotheclassandnottoinstances,allowingthemtobecalledwithoutcreatinganobject.1.Theyaredefinedusingthe@classmethoddecoratorandtakeclsasthefirstparameter,referringtotheclassitself.2.Theycanaccessclassvariablesandarecommonlyused

See all articles