导图社区 第七章 聚类
第七章 聚类,汇总了 k-means 聚类、密度聚类和层次聚类、聚类的评价指标的内容,希望对你有所帮助。
查询与统计数据(3) ——关系代数,关系(单一的数据结构) 一张二维表,大家可以学起来哦。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
第七章 聚类
01 无监督学习概述
监督学习:训练集有标签y
无监督学习:数据没有附带任何标签
聚类
主要算法
K-means
密度聚类
层次聚类
降维
关联规则
子主题
02 k-means 聚类
概述:具有一个迭代过程,在这个过程中,数据集被分组成若干个预定义的不重叠的聚类或子组,使簇的内部点尽可能相似,同时试图保持簇在不同的空间,它将数据点分配给簇,以便簇的质心和数据点之间的平方距离之和最小,在这个位置,簇的质心是簇中数据点的算数平均值。
距离度量:闵可夫斯基距离
相似度量准则
euclidean距离
manhattan距离
chebyshev距离
minkowski距离
k-means算法流程
初始化质心(选择训练样本,并给它们随机分类了类标记)
1.选择k个点作为初始质心。
2.将每个点指派到最近的质心,形成k个簇。
3.对于上一部聚类的结果,进行平均计算,得出该簇的新的聚类中心。
4.重复上述两步/直到迭代结束:质心不发生变化。
簇赋值(相当于最近邻学习的1近邻算法分类每一个对象)
迭代更新(更新训练样本)
收敛(反复迭代利用每一个对象,直到分类结果不再发生变化)
k值的选择:肘部法则
k-means的优点
鲁棒性高;速度快、易于理解、效率高;计算成本低、灵活性高;如果数据集是不同的,则结果更好;可以产生更紧密的簇;重新计算质心时,簇会发生变化。
k-means的缺点
预先指定簇的数量k
无法处理异常值和噪声数据,对异常数据敏感
对初始质心点敏感
03 密度聚类和层次聚类
密度聚类:DBSCAN
将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。
两个超参数
扫描半径 eps
最小包含点数 minpts
数据点
核心点
eps > minpts
边界点
eps < minpts
噪音点
核心点和边界点之外的点
算法流程
1.将所有点标记为核心点、边界点或噪声点
2.如果选择的点是核心点,则找出所有从该点出发的密度可达对象形成簇
3.如果该点是非核心点,将其指派到一个与之关联的核心点的簇中
4.重复以上步骤,直到所有的点都被处理过
聚合聚类(自下而上)
分裂聚类(自上而下)
04 聚类的评价指标
均一性
完整性
v-measure
轮廓系数
调整兰德系数