导图社区 决策树
下图汇总了决策树的相关知识点,包含决策树的目标及注意、ID3算法、C45算法、CART算法、剪枝处理等,收藏下图了解吧!
线性模型总结思维导图,讲述了线性模型的基本形式、线性回归、对数几率回归、线性判别分析、多分类学习等内容。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
决策树
基本流程
决策树的目标:根据给定的数据集训构建一个决策树模型,使它能够对实例进行正确的分类
注意:(1)基本流程遵循分而治之的方法策略(2)决策树的生成是一个递归过程
划分选择
ID3算法:使用信息增益作为属性选择度量
信息熵:度量样本集合纯度的一种指标
信息增益:一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的纯度提升越大
优点 1. 1.假设空间包含所有的决策树,搜索空间完整。 2. 2.健壮性好,不受噪声影响。 3. 3.可以训练缺少属性值的实例。 总的来说,就是理论清晰、方法简单、学习能力较强 缺点 ID3算法的缺点也是很明显,正如我们上面所说,ID3算法会去选择子类别多的特征,因为这样分裂出来的结果会更纯,熵会更小,这有偏于我们的初衷,我们要的纯不是想通过让它分类分的更细得来的纯啊!(如果这样那不如分100个类好了里面数据的纯度都很高。 所以我对ID3算法的缺点1.ID3只考虑分类型的特征,没有考虑连续特征,比如长度,密度都是连续值,无法在ID3运用。这大大限制了ID3的用途。 2.ID3算法对于缺失值没有进行考虑。 3.没有考虑过拟合的问题。 4.ID3算法在选择根节点和各内部节点中的分支属性时,采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息。 5.划分过程会由于子集规模过小而造成统计特征不充分而停止。 )
C4.5算法:使用增益率作为属性选择度量
子主题
CART算法:使用基尼指数进行属性选择度量
于是,我们在候选属性集合A中,选择那个使得划分后基尼指数最小的属性作为最优划分属性
剪枝处理:是决策树算法对付过拟合的主要手段