导图社区 AdaBoost元算法提高分类性能技巧思维导图
AdaBoost元算法提高分类性能技巧总结,内容涵盖基于数据集多重抽样的分类器,基于单层决策树构建弱分类器,非均衡分的问题。
网店详情页排版方法分享~包括中心页面组成,优质详情必备,详情页的排版参考方法。感兴趣的小伙伴可以看看哦~
喷绘色彩基础培训方案,内容涵盖色彩基础,喷绘写真。框架清晰,内容丰富,希望对小伙伴有所帮助哦~
酒窖营销计划方案,包括结果目标,过程目标。框架清晰,内容丰富,有需要的小伙伴可以看看哦~ 可供大家参考,借鉴,交流。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
AdaBoost元算法提高分类性能技巧思维导图
基于数据集多重抽样的分类器
集成方法(元算法)
不同算法的集成
同一算法不同设置下的集成
数据集不同部分分配给不同分类器后的集成
AdaBoost
优点
泛化错误率低
易编码
可应用在大部分分类器上
无参数调整
缺点
对离群点敏感
适用数据类型
数值型
标称型
bagging:基于数据随机重抽样的分类器构建方法
自举汇聚法
从原始数据集,选S次后得到S个新数据集的技术
新数据集和原数据集大小相等
每个数据集都是通过在原始数据集随机选择一个样本,替换成另一随机样本得到的
通常被认为是放回取样的
允许新数据集有重复值,而原始数据集某些值不再出现
S个数据集建好后,将某个学习算法分别作用于每个数据集得到S个分类器
当对新数据分类时,应用这S个分类器,选择最多的类别
随机森林
boosting
类似于bagging
相同
使用的多个分类器一致
不同
训练
bagging的分类器是串行训练获得的,每个新分类器都根据已训练出的分类器进行训练
boosting通过集中关注被已有分类器错分的数据获得新的分类器
分类结果
bagging每个分类器权重相同
boosting每个分类器的权重代表的是在上一轮迭代中的成功度
AdaBoost流程
收集数据
任意方法
准备数据
依赖于所使用的弱分类器类型
本章:单层决策树
简单的弱分类器效果更好
分析数据
训练数据
大部分时间用于训练
分类器将多次在同一数据集上训练弱分类器
测试算法
计算分类的错误率
使用算法
类似SVM
训练算法:基于错误提升分类器的性能
adaptive boosting
运行过程
训练数据中的每个样本,并赋予其一个权重,构成向量D
一开始权重都相等
首先,在训练数据上训练出一个弱分类器并计算错误率
然后,在同一数据集上再次训练弱分类器
重新调整权重
对的
降低
错的
提高
为每个分类器分配了一个权重值alpha
基于每个弱分类器的错误率计算
错误率
未正确分类样本数/所有样本数
不断重复迭代,直至
错误率0
弱分类器数目达到用户指定值
基于单层决策树构建弱分类器
单层决策树
又称决策树桩
工作原理
仅基于单个特征作决策
伪代码
将最小错误率minError设置为正无穷
对数据集中的每一个特征
对每个步长
对每个不等号
建立一棵单层决策树,并利用加权数据集对其测试
如果错误率低于minError,将当前单层决策树设为最佳单层决策树
返回最佳单层决策树
完整AdaBoost算法的实现
对每次迭代
利用buildStump()函数找到最佳的单层决策树
将最佳单层决策树加入到单层决策树数组
计算alpha
计算新的权重向量D
更新累计类别估算值
如果错误率等于0.0,退出循环
测试算法:基于AdaBoost的分类
示例:在一个难数据集上应用AdaBoost
过拟合
overfitting,过学习
测试错误率在达到一个最小值后又开始上升
有文献称,表现好的数据集测试错误率会达到一个稳定值
非均衡分类问题
其他分类性能度量指标:准确率,召回率,ROC曲线
混淆矩阵
可以帮人们更好的了解分类中的错误
真阳TP、假阳FP、真阴TN、假阴FN
准确率
TP/(TP+FP)
召回率
TP/(TP+FN)
ROC曲线
接收者操作特征
横轴
假阳的比例
FP/(FP+TN)
纵轴
真阳的比例
用于
比较分类器
成本效益分析
理想情况下
最佳的分类器尽可能处于左上角
曲线下的面积AUC
分类器的平均性能值
基于代价函数的分类器决策控制
代价敏感的学习
有除0、1外值的代价矩阵
引入代价信息
基于代价函数来调整错误权重向量D
朴素贝叶斯
选择最小期望代价而不是最大概率的类别作为分类结果
SVM
在代价函数中对不同类别选择不同的参数C
处理非均衡问题的数据抽样方法
欠抽样
删除样例
选离决策边界较远的样例删除
欠抽样和过抽样混合
过抽样
复制样例
复制已有样例
加入与已有样例相似的点
插值点
可能造成过拟合