导图社区 机器学习之集成学习
总结了机器学习中集成学习有关算法,如基于自助采样的Bagging和随机森林算法、基于提升思想的AdaBoost和提升树算法,前者是并行集成,后者是串行集成。
总结了循环神经网络RNN的基本内容,如RNN基本结构原理、RNN计算训练的BPTT算法、长短期记忆模型LSTM和门控循环单元GRU的基本原理等
总结了卷积神经网络的主要内容,如基本概念,卷积运算,基本结构,参数学习方法以及一些卷积神经网络实例结构。
总结了最基本的神经网络结构——多层感知机MLP和前馈网络FNN,在此基础上总结了神经网络的目标函数和优化技术,反向传播算法计算目标函数对网络权系数的梯度问题,以及神经网络优化的辅助技术如初始化、正则化等。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
机器学习 之 集成学习
集成学习器
定义
将多个基学习器结合起来构成的一个性能更好的学习器
种类
按照方法分
基于样本集重采样技术
Bagging
随机森林
提升方法
AdaBoost
梯度提升树
按照结构分
并行结构
串行结构
Boosting
并行/串行
Bagging和随机森林
介绍
重采样技术
从训练样本集出发,用重采样方法得到各自的重采样样本集
组合技术
用每个新样本集训练一个基学习器
最后将这些基学习器组合为一个集成学习器
Bagging结构
Bagging由来
Bootstrap aggregating(自助采样+集成)
自助采样和Bagging算法
自助采样
从原始样本集中放回采样
自助样本中可能包含重复样本,有效样本约有0.632N
自助样本之间具有一定的不相关性
Bagging算法
思想
由训练样本集D,重采样得到B个自助样本集D*(b)
对于每个自助样本,通过基学习算法训练一个基学习器
Bagging集成学习器
结果输出
回归问题
各基回归模型输出的平均
分类问题
投票原则:每个基分类器以±1表示,然后集成相加
优点
基学习器是一种不稳定学习器
如决策树
Bagging可显著降低学习器的方差和不稳定性
随机森林算法
结构
随机
目的
单个决策树有较高的方差
多个随机决策树组合能有效降低方差
影响因素
自助采样过程的随机性
特征变量选择的随机性
与决策树不同的是, 在特征子集中选最好的
过程
生成自助样本
通过自助法,从训练集D采样获得自助样本集D*
生成随机森林树
特征选择
从M个特征变量中随机选取m个变量
在m个变量中选择最好的变量和切分点
分裂节点到两个子节点
输出树的集合
输出结果
回归输出进行均值
分类输出进行投票
性能比较
随机森林算法一般优于Bagging算法,这是因为还有特征选择的随机性
提升和AdaBoost算法
提升算法的串行结构
AdaBoost算法介绍
串行的训练弱学习器(基学习器),后一个弱学习器更正前一个学习器的错误,最终所有基学习器集成达到强学习器
对基学习器进行多轮调用,在每轮调用时,都对样本集中每个样本在损失函数中的权重进行调整
初始时所有样本具有相等的权重,但经过每轮,被正确分类的样本给予较小权重,没有被正确分类的样本权重增加
这样难以正确分类的样本会持续获得高权重,使后续基学习器重点关注和解决较难分类的样本
弱学习器
一个比随机猜测好一些的学习器
相对于一般的基学习器,弱学习器更容易设计
弱学习器性能越好,串行结构长度越短
学习器性能评价
加权误差
权重
决定了学习器在集成学习投票中的权重,误差越小,该学习器权重越大
样本权系数调整
加权投票输出
特性
在训练集上的误差随提升过程快速下降
随着模型复杂度提高,测试误差单调下降,没有出现过拟合,具有抵抗过拟合的能力
提升树算法
加法模型和提升树
加法模型
学习模型
全局优化模型
同时优化模型所有参数
前向分步加法优化模型
分步优化模型参数
提升树模型
AdaBoost算法
取指数损失函数作为目标函数
回归提升树
取平方误差函数作为目标函数
回归的目标函数
平方误差函数
负梯度替代残差
分类的目标函数
交叉熵函数