导图社区 第3章 线性模型
机器学习(西瓜书版),介绍了基本形式、 线性回归、 对数几率回归、线性判别分析、 多分类学习等。
这是一篇关于微型计算机系统的思维导图,主要内容包括:软件,硬件。有需要的赶紧收藏吧!
导图精简且有助于知识点的理解与记忆,几天努力整理结果,又是伤脑细胞的几天···55,欢迎点赞收藏!
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
第3章 线性模型
(1)基本形式
线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数。优点:形式简单、易于建模 可解释性 非线性模型的基础(引入层级结构或高维映射)
基本形式
一般形式
是由属性描述的示例,其中xi是x在第 i个属性上的取值
向量形式
,其中
(2)线性回归
考虑离散类型处理:
有“序”关系 连续化为连续值
“序”关系 有个属性值,则转化为维向量
目的:学得一个线性模型以尽可能准确地预测实值输出标记
单一属性的线性
目标:
参数/模型估计:最小二乘法
最小化平方误差:
分别对 w 和 b 求导,可得:
多元线性回归
多元线性回归目标
最小二乘法
(3)对数几率回归
广义线性模型:
二分类任务
单位阶跃函数缺点:不连续
极大自然法
若将 y 看作类后验概率估计
,可用梯度下降法、牛顿法等·都可求得最优解
(6)类别不平衡的问题
问题描述:存在正负样本不均衡的问题。对于很多分类算法,如果直接采用不均衡的样本集进行训练学习,会存在一些问题。
准确度悖论:数据集里有1000个数据点,其中990个为类别0,剩下的10个为类别1,则下表中的模型A比模型B更好吗?
在面对非均衡数据时,有的评价指标(如准确度)会使模型严重偏向占比更多的类别,导致模型的预测功能失效。而AUC(曲线下面积)在面对非均衡数据集时,可以保持稳定,不会发生如准确度悖论这样的失真。
准确度(accurary,ACC)定义:
不同类别训练样例数相差很大情况(假设正类为小类)“小类”往往更重要
基本思路:
基本策略:再放缩。
常见类别不平衡学习方法:(1)过采样 (oversampling) 例如:SMOTE(2)欠采样 例如:EasyEnsemble (3)阈值移动(threshold-moving)
过采样:增加一些正例使正反例数目接近
阈值移动:对于分类问题,可以不直接预测实例的类标号,而是通过预测概率值,后指定一个阈值来将实例化分为正类和负类,通常指定阈值为 0.5,但可根据实际情况对阈值进行移动,进而增加某一类的权重,以达到解决类不平衡的目的。
欠采样:去除一些反例使正反例数目接近
有个困难:精确估计 m − /m + 通常很困难!
(5)多分类学习
多分类学习的基本思路是“拆分法”。关键是:如何对多分布任务进行拆分,以及对多个分类器进行集成。
拆分策略:1.一对一 2.一对其余 3.多对多
一对一
拆分阶段
N个类别两两配对: N(N-1)/2 个二类任务
各个二类任务学习分类器: N(N-1)/2 个二类分类器
测试阶段
新样本提交给所有分类器预测: N(N-1)/2 个分类结果
投票产生最终分类结果: 被预测最多的类别为最终类别
一对其余
任务拆分
某一类作为正例,其他反例:N 个二类任务
各个二类任务学习分类器:N 个二类器
新样本提交给所有分类器预测:N 个分类结果
比较各分类器预测置信度:置信度最大的类别作为最终类别
多对多:若干类作为正类,若干类作为反类
纠错输出码
流程图:
总结:(1)ECOC编码对分类器错误有一定容忍和修正能力,编码越长、纠错能力越强 (2)对同等长度的编码,理论上来说,任意两个类别之间的编码距离越远,则纠错能力越强
“一对多”与“多对其余”的比较
“一对多”:训练N(N-1)/2个分类器,存储开销和测试时间大 训练只用两个类的样例,训练时间短
“多对其余”:训练N个分类器,存储开销和测试时间小 训练用到全部训练样例,训练时间长
预测性能取决于具体数据分布,多数情况下两者差不多
(4)线性判别分析
是一种有监督学习算法,同时经常被用来对数据进行降维。它是Ronald Fisher在1936年发明的,有些资料也称其为Fisher LDA。 LDA是目前机器学习、数据挖掘领域中经典且热门的一种算法。
LDA也可被视为一种监督降维技术
LDA的思想
同类样例的投影点尽可能接近:
异类样例的投影点尽可能远离:
由LDA思想得出
最大化目标:
类内散度矩阵:
类间散度矩阵:
广义瑞利商:
这就是LDA欲最大化目标。令
等价为:
运用拉格朗日乘子法:
可得:
结果:
注意:他是学习算法
替代函数:对数几率函数(对数几率函数简称“对率函数”) 优点:单调可微、任意阶可导
对数几率(log odds / logit) 几率(odds), 反映了样本作为正例的相对可能性
优点:无需事先假设数据分布(即对什么数据都能用) 可得到“类别”的近似概率预测 可直接应用现有数值优化算法求取最优解