导图社区 k-均值聚类算法对未标注数据分组知识点笔记

k-均值聚类算法对未标注数据分组知识点笔记

k-均值聚类算法对未标注数据分组知识点笔记，一张图带你完全了解相关内容，通过思维导图帮你提高效率，赶紧来试一试吧~

编辑于2022-12-07 21:54:30 广东

k-均值聚类算法对未标注数据分组

凝

他的近期作品查看更多>>

k-均值聚类算法对未标注数据分组知识点笔记

社区模板帮助中心，点此进入>>

凝

他的近期作品查看更多>>

相似推荐
大纲

论语孔子简单思维导图
- 89.0k
- 943
- 1.1k
- 487
- 1
MindMaster
《傅雷家书》思维导图
- 134.5k
- 1.7k
- 2.7k
- 1.3k
- 0
MindMaster
《童年》读书笔记
- 45.8k
- 488
- 986
- 336
- 0
MindMaster
《茶馆》思维导图
- 13.1k
- 175
- 181
- 40
- 0
MindMaster
《朝花夕拾》篇目思维导图
- 26.3k
- 532
- 1.2k
- 300
- 0
MindMaster
《昆虫记》思维导图
- 34.3k
- 272
- 778
- 277
- 0
MindMaster
《安徒生童话》思维导图
- 19.1k
- 276
- 264
- 66
- 0
MindMaster
《鲁滨逊漂流记》读书笔记
- 22.0k
- 310
- 550
- 166
- 0
MindMaster
《这样读书就够了》读书笔记
- 98.6k
- 12.9k
- 9.0k
- 2.2k
- 0
Ethan
妈妈必读：一张0-1岁孩子认知发展的精确时间表
- 10.7k
- 1.7k
- 409
- 39
- 0
Ethan

k-均值聚类算法对未标注数据分组知识点笔记

引言

簇识别

给出聚类结果的含义

聚类与分类区别

分类的目标事先已知，聚类则不是

K-均值聚类算法

优点

易实现

缺点

可能收敛到局部最小值

在大规模数据集上收敛较慢

适用数据类型

数值型

工作流程

随机选取k个初始点作为质心

将数据集的每个点分配到一个簇中（找最近的质心）

分配完后，更新每个簇的质心为所有点的均值

伪代码

创建k个点作为初始质心

当任意一个点的簇分配结果发生改变时

对数据集每个点

对每个质心

计算质心与数据点的距离

将数据点分配到距其最近的簇

对每个簇，计算簇中所有点均值作为新的质心

一般流程

收集数据

任意方法

准备数据

需要数值型数据来计算距离

标称型数据需要映射为二值型数据

分析数据

任意方法

训练算法

无监督学习无训练算法

测试算法

应用聚类算法观察结果

可以使用量化的误差指标（如误差平方和）评价算法结果

使用算法

所希望的任意应用

通常，簇质心可以代表整个簇的数据来做出决策

使用后处理来提高聚类性能

度量聚类效果

SSE

误差平方和

越小说明数据点越接近质心，聚类效果越好

后处理

将具有最大SSE的簇分成两个簇

将最大簇的点过滤出来执行k=2的k均值聚类

为了保持簇总数不变，可将某两个簇合并

合并最近的质心

计算所有质心间的距离

合并两个使SSE增幅最小的质心

合并两个簇然后计算总SSE

二分K-均值算法

目的

解决K-means收敛于局部最小值的问题

伪代码

将所有点看成一个簇

当簇数目小于k时

对每个簇

计算总误差

在给定的簇上面进行K-means（k=2）

计算将该簇一分为二后的总误差

选择使误差最小的那个簇进行划分操作

另一种做法

选择SSE最大的簇进行划分

示例：对地图上的点进行聚类

Yahoo! PlaceFinder API

需要注册获得API key

其他方法

《鲜活的数据》Ch8：Geopy

对地理坐标进行聚类

球面余弦定理