导图社区 第四节:机器学习二
这是一篇关于第四节:机器学习二的思维导图,主要内容包括:决策树:模拟人类决策过程的模型,朴素贝叶斯:用概率推理解读社会现象,支持向量机(SVM):“寻找最佳分割线”,监督学习与非监督学习。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
第四节:机器学习二
决策树:模拟人类决策过程的模型
逐层分解:根节点、内部节点、叶节点(关键在于选择每个分类依据)
核心步骤
衡量数据的“有序程度”——计算信息熵
信息熵:衡量数据混乱程度(信息的确定性)的一项指标
信息熵公式P36,信息熵越小说明包含的信息越稳定纯度越高
找到最优分类依据——信息增益
定义:某个分类依据能降低多少混乱程度
信息增益越大,说明这个分类依据对数据的划分效果越好
信息增益计算公式P36
决策树通过比较所有分类依据的信息增益,选择最优的标准作为当前节点的分类标准
分裂数据并构建节点
1、根据选定的分类依据,把数列分裂成更小的子集
2、每个子集重复前两个步骤
(1)若数据已经完全有序:生成叶节点
(2)若数据仍然混乱:继续下一个分类依据
循环构建决策树
递归地重复上述步骤,直到:
数据在每个节点上完全有序
或者达到预设的树深度限制,以避免过拟合
优势与不足P38(略)
随机森林算法(优化过拟合与局部最优问题)
定义:基于决策树的集成学习方法,构建多棵决策树让他们共同投票决定最终分类结果
朴素贝叶斯:用概率推理解读社会现象
核心思想:通过已知特征,推测目标变量
核心假设:特征之间是条件独立的
公式P39:分辨后验概率、先验概率、似然概率、标准化因子
优点与局限P40
支持向量机(SVM):“寻找最佳分割线”
主要用途:分类任务(也可以用于回归任务),要是线性可分问题
核心目标:找到最优超平面,最大化分类边界两侧的间隔带
核心概念
1、支持向量:支持向量是距离分割线最近的数据点。分类结果的“关键参考点”
2、分类边界:分类边界即超平面(最佳分割线)
3、核函数:在无法线性可分时,映射到高维空间找到可以分割数据的超平面
优势与局限P42
监督学习与非监督学习
监督学习:依赖于标注的数据集展开学习(包括输入特征和输出标签)
无监督学习:不需要标签数据,仅基于输入特征的分布
例:K-Means聚类算法
选择簇的数量 𝐾:k即为超参数
随机选择 𝐾 个初始点作为簇的中心(质心)
将每个点分配到距离最近的质心(运用欧式距离计算)
重新计算每个簇的质心(取其特征的平均值)
重复上述两个步骤,直到质心位置不再变化,迭代停止
优点与局限性P44-45略