数据挖掘领域十大经典算法之：K-Means算法（附代码）

K-Means算法又叫K-均值算法，是非监督学习中的聚类算法。

简介

K-Means算法又叫K-均值算法，是非监督学习中的聚类算法。

基本思想

k-means算法比较简单。在k-means算法中，用cluster来表示簇;容易证明k-means算法收敛等同于所有质心不再发生变化。基本的k-means算法流程如下：

选取k个初始质心(作为初始cluster，每个初始cluster只包含一个点);

repeat：

对每个样本点，计算得到距其最近的质心，将其类别标为该质心所对应的cluster;

重新计算k个cluster对应的质心(质心是cluster中样本点的均值);

until 质心不再发生变化 12345

repeat的次数决定了算法的迭代次数。实际上，k-means的本质是最小化目标函数，目标函数为每个点到其簇质心的距离的平方和：

N是元素个数，x表示元素，c(j)表示第j簇的质心

算法复杂度

时间复杂度是O(nkt) ,其中n代表元素个数，t代表算法迭代的次数，k代表簇的数目

优缺点

优点

简单、快速;

对大数据集有较高的效率并且是可伸缩性的;

时间复杂度近于线性，适合挖掘大规模数据集。

缺点

k-means是局部最优，因而对初始质心的选取敏感;

选择能达到目标函数最优的k值是非常困难的。

代码

代码已在github上实现，这里也贴出来

测试数据集获取地址为testSet

成都加米谷大数据培训，专注于大数据人才培养，双节报名学习大数据开发、数据分析与挖掘，特惠活动进行中，详情见微头条！

查看原文 >>

数据挖掘领域十大经典算法之：K-Means算法（附代码）

热门新闻

周热门

数据挖掘领域十大经典算法之：K-Means算法（附代码）

福建首个2000P算力集群浮出水面 国企民企联手赶潮“港数闽算”

【玻璃大数据】玻璃供应环比略有下滑但仍在高位

每日猪讯5.22

算力概念股走强，多只算力ETF集体反弹

五大数据扫描地产股，政策面基本面技术面齐向好

每日猪讯5.13

【玻璃大数据】五一劳动节后，玻璃市场冷修和热修数量增加

A股异动 | 大名城一度涨超5% 股价创逾2年新高

大名城：拟共设大数据智算公司并签署框架协议 参与“人工智能+”行动

大名城：拟出资8800万元参设福建省大数据智算投资有限公司

“牛夫人”变“小甜甜” 大数据揭示基金经理“真爱”

涨停板正平股份：目前业务收入以基础设施建设为主 不涉及AI算力、大数据业务

登云股份继续停牌疑云：走跨界并购老路，还是被借道上市？

小商品城(600415.SH)：大数据公司拟将兴宸企管100%的股权转让给商城控股

奥飞数据2023年营收增长21.63% 大力推进五大数据中心项目建设

热门新闻

周热门

福建首个2000P算力集群浮出水面国企民企联手赶潮“港数闽算”

大名城：拟共设大数据智算公司并签署框架协议参与“人工智能+”行动

涨停板正平股份：目前业务收入以基础设施建设为主不涉及AI算力、大数据业务