导图社区第3章线性模型

第3章线性模型

机器学习（西瓜书版），介绍了基本形式、线性回归、对数几率回归、线性判别分析、多分类学习等。

编辑于2024-04-12 22:37:17

怪味胡豆

他的近期作品查看更多>>

第3章线性模型

社区模板帮助中心，点此进入>>

怪味胡豆

他的近期作品查看更多>>

相似推荐
大纲

论语孔子简单思维导图
- 67.5k
- 749
- 925
- 368
MindMaster
《傅雷家书》思维导图
- 115.8k
- 1.5k
- 2.6k
- 1.1k
MindMaster
《童年》读书笔记
- 41.2k
- 450
- 936
- 320
MindMaster
《茶馆》思维导图
- 9.9k
- 164
- 178
- 39
MindMaster
《朝花夕拾》篇目思维导图
- 22.2k
- 464
- 1.1k
- 278
MindMaster
《昆虫记》思维导图
- 27.5k
- 240
- 758
- 260
MindMaster
《安徒生童话》思维导图
- 14.9k
- 254
- 251
- 62
MindMaster
《鲁滨逊漂流记》读书笔记
- 18.7k
- 276
- 533
- 161
MindMaster
《这样读书就够了》读书笔记
- 91.7k
- 11.7k
- 8.8k
- 2.1k
Ethan
妈妈必读：一张0-1岁孩子认知发展的精确时间表
- 7.4k
- 1.5k
- 386
- 46
Ethan

第3章线性模型

（1）基本形式

线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数。优点：形式简单、易于建模可解释性非线性模型的基础(引入层级结构或高维映射)

基本形式

一般形式

是由属性描述的示例，其中xi是x在第 i个属性上的取值

向量形式

,其中

（2）线性回归

考虑离散类型处理：

有“序”关系连续化为连续值

“序”关系有个属性值，则转化为维向量

目的：学得一个线性模型以尽可能准确地预测实值输出标记

单一属性的线性

目标：

参数/模型估计：最小二乘法

最小化平方误差：

分别对 w 和 b 求导,可得:

多元线性回归

多元线性回归目标

最小二乘法

（3）对数几率回归

广义线性模型：

二分类任务

单位阶跃函数缺点：不连续

极大自然法

若将 y 看作类后验概率估计

,可用梯度下降法、牛顿法等·都可求得最优解

（6）类别不平衡的问题

问题描述：存在正负样本不均衡的问题。对于很多分类算法，如果直接采用不均衡的样本集进行训练学习，会存在一些问题。

准确度悖论：数据集里有1000个数据点，其中990个为类别0，剩下的10个为类别1，则下表中的模型A比模型B更好吗？

在面对非均衡数据时，有的评价指标（如准确度）会使模型严重偏向占比更多的类别，导致模型的预测功能失效。而AUC（曲线下面积）在面对非均衡数据集时，可以保持稳定，不会发生如准确度悖论这样的失真。

准确度(accurary,ACC)定义：

不同类别训练样例数相差很大情况（假设正类为小类）“小类”往往更重要

基本思路：

基本策略：再放缩。

常见类别不平衡学习方法：（1）过采样 (oversampling) 例如:SMOTE（2）欠采样例如:EasyEnsemble （3）阈值移动（threshold-moving）

过采样:增加一些正例使正反例数目接近

阈值移动:对于分类问题，可以不直接预测实例的类标号，而是通过预测概率值，后指定一个阈值来将实例化分为正类和负类，通常指定阈值为 0.5，但可根据实际情况对阈值进行移动，进而增加某一类的权重，以达到解决类不平衡的目的。

欠采样:去除一些反例使正反例数目接近

有个困难：精确估计 m − /m + 通常很困难！

（5）多分类学习

多分类学习的基本思路是“拆分法”。关键是：如何对多分布任务进行拆分，以及对多个分类器进行集成。

拆分策略：1.一对一 2.一对其余 3.多对多

一对一

拆分阶段

N个类别两两配对： N(N-1)/2 个二类任务

各个二类任务学习分类器： N(N-1)/2 个二类分类器

测试阶段

新样本提交给所有分类器预测： N(N-1)/2 个分类结果

投票产生最终分类结果：被预测最多的类别为最终类别

一对其余

任务拆分

某一类作为正例，其他反例：N 个二类任务

各个二类任务学习分类器：N 个二类器

测试阶段

新样本提交给所有分类器预测：N 个分类结果

比较各分类器预测置信度：置信度最大的类别作为最终类别

多对多：若干类作为正类，若干类作为反类

纠错输出码

流程图：

总结：（1）ECOC编码对分类器错误有一定容忍和修正能力，编码越长、纠错能力越强（2）对同等长度的编码，理论上来说，任意两个类别之间的编码距离越远，则纠错能力越强

“一对多”与“多对其余”的比较

“一对多”：训练N(N-1)/2个分类器，存储开销和测试时间大训练只用两个类的样例，训练时间短

“多对其余”：训练N个分类器，存储开销和测试时间小训练用到全部训练样例，训练时间长

预测性能取决于具体数据分布，多数情况下两者差不多

（4）线性判别分析

是一种有监督学习算法，同时经常被用来对数据进行降维。它是Ronald Fisher在1936年发明的，有些资料也称其为Fisher LDA。 LDA是目前机器学习、数据挖掘领域中经典且热门的一种算法。

LDA也可被视为一种监督降维技术

LDA的思想

同类样例的投影点尽可能接近：

异类样例的投影点尽可能远离：

由LDA思想得出

最大化目标：

类内散度矩阵：

类间散度矩阵：

广义瑞利商：

这就是LDA欲最大化目标。令

等价为：

运用拉格朗日乘子法：

可得：

结果：

注意：他是学习算法

替代函数：对数几率函数（对数几率函数简称“对率函数”）优点：单调可微、任意阶可导

对数几率（log odds / logit）几率(odds), 反映了样本作为正例的相对可能性

优点：无需事先假设数据分布（即对什么数据都能用）可得到“类别”的近似概率预测可直接应用现有数值优化算法求取最优解

第3章 线性模型

第3章 线性模型

第3章线性模型

第3章线性模型