导图社区 机器学习-决策树
这篇思维导图总结了决策树算法主要种类及核心要点,包括缺失值处理、适用场景等等。实用性强,内容价值高,欢迎下载。
读完《跃迁》后整理的各个章节的核心内容及要点
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
机器学习-决策树
关键评价指标
信息熵
信息增益
ID3算法
缺点:信息增益偏向取值较多的特征
原因:当特征的取值较多时,根据此特征划分更容易得到纯度更高的子集,因此划分之后的熵更低,由于划分前的熵是一定的,因此信息增益更大,因此信息增益比较 偏向取值较多的特征。
增益率
C4.5算法
缺点:信息增益比偏向取值较少的特征
原因:当特征取值较少时IV(a)的值较小,因此其倒数较大,因而信息增益比较大。因而偏向取值较少的特征。
使用信息增益比:基于以上缺点,并不是直接选择信息增益率最大的特征,而是现在候选特征中找出信息增益高于平均水平的特征,然后在这些特征中再选择信息增益率最高的特征。
Geni系数
基尼指数
基尼系数
CART算法
剪枝
预剪枝
训练中处理,每次划分时评估此次划分是否带来泛化性提升
后剪枝
训练后处理,判定每棵子树判定为叶节点是否能带来泛化性提升
连续值与缺失值
连续值
二分法:C4.5
划分点:
损失函数:
缺失值
C4.5
未知属性的样本以不同概率划分到不同的节点中去
多变量决策树
分类边界轴平行:分类边界由多个与轴平行的分段组成。
不再是为每一个节点找一个最佳划分属性,而是找一个合适的线性分类器。