导图社区第七章聚类

第七章聚类

第七章聚类，汇总了 k-means 聚类、密度聚类和层次聚类、聚类的评价指标的内容，希望对你有所帮助。

编辑于2023-04-13 11:49:11 浙江省

聚类

EDKDGMXw

他的近期作品查看更多>>

第七章聚类

社区模板帮助中心，点此进入>>

EDKDGMXw

他的近期作品查看更多>>

相似推荐
大纲

论语孔子简单思维导图
- 87.5k
- 936
- 1.1k
- 483
- 1
MindMaster
《傅雷家书》思维导图
- 133.2k
- 1.7k
- 2.7k
- 1.3k
- 0
MindMaster
《童年》读书笔记
- 45.3k
- 488
- 985
- 336
- 0
MindMaster
《茶馆》思维导图
- 12.5k
- 175
- 181
- 40
- 0
MindMaster
《朝花夕拾》篇目思维导图
- 25.8k
- 529
- 1.2k
- 301
- 0
MindMaster
《昆虫记》思维导图
- 33.1k
- 270
- 778
- 276
- 0
MindMaster
《安徒生童话》思维导图
- 18.2k
- 274
- 264
- 66
- 0
MindMaster
《鲁滨逊漂流记》读书笔记
- 21.3k
- 309
- 549
- 166
- 0
MindMaster
《这样读书就够了》读书笔记
- 97.7k
- 12.8k
- 9.0k
- 2.2k
- 0
Ethan
妈妈必读：一张0-1岁孩子认知发展的精确时间表
- 10.1k
- 1.7k
- 407
- 40
- 0
Ethan

第七章聚类

01 无监督学习概述

监督学习：训练集有标签y

无监督学习：数据没有附带任何标签

聚类

主要算法

K-means

密度聚类

层次聚类

降维

关联规则

子主题

02 k-means 聚类

概述：具有一个迭代过程，在这个过程中，数据集被分组成若干个预定义的不重叠的聚类或子组，使簇的内部点尽可能相似，同时试图保持簇在不同的空间，它将数据点分配给簇，以便簇的质心和数据点之间的平方距离之和最小，在这个位置，簇的质心是簇中数据点的算数平均值。

距离度量：闵可夫斯基距离

相似度量准则

euclidean距离

manhattan距离

chebyshev距离

minkowski距离

k-means算法流程

初始化质心（选择训练样本，并给它们随机分类了类标记）

1.选择k个点作为初始质心。

2.将每个点指派到最近的质心，形成k个簇。

3.对于上一部聚类的结果，进行平均计算，得出该簇的新的聚类中心。

4.重复上述两步/直到迭代结束：质心不发生变化。

簇赋值（相当于最近邻学习的1近邻算法分类每一个对象）

迭代更新（更新训练样本）

收敛（反复迭代利用每一个对象，直到分类结果不再发生变化）

k值的选择：肘部法则

k-means的优点

鲁棒性高；速度快、易于理解、效率高；计算成本低、灵活性高；如果数据集是不同的，则结果更好；可以产生更紧密的簇；重新计算质心时，簇会发生变化。

k-means的缺点

预先指定簇的数量k

无法处理异常值和噪声数据，对异常数据敏感

对初始质心点敏感

03 密度聚类和层次聚类

密度聚类：DBSCAN

将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。

两个超参数

扫描半径 eps

最小包含点数 minpts

数据点

核心点

eps ＞ minpts

边界点

eps ＜ minpts

噪音点

核心点和边界点之外的点

算法流程

1.将所有点标记为核心点、边界点或噪声点

2.如果选择的点是核心点，则找出所有从该点出发的密度可达对象形成簇

3.如果该点是非核心点，将其指派到一个与之关联的核心点的簇中

4.重复以上步骤，直到所有的点都被处理过

层次聚类

聚合聚类（自下而上）

分裂聚类（自上而下）

04 聚类的评价指标

均一性

完整性

v-measure

轮廓系数

调整兰德系数

第七章 聚类

第七章 聚类

第七章聚类

第七章聚类