导图社区统计学习方法（第二版）笔记

统计学习方法（第二版）笔记

统计学习方法（第二版）笔记的思维导图，如泛化能力是指由该方法学习到的模型对未知数据的预测能力，是学习方法本质上的重要性质。

编辑于2023-06-04 18:09:49

不学习就去卷卷

他的近期作品查看更多>>

统计学习方法（第二版）笔记
统计学习方法（第二版）笔记的思维导图，如泛化能力是指由该方法学习到的模型对未知数据的预测能力，是学习方法本质上的重要性质。

统计学习方法（第二版）笔记

社区模板帮助中心，点此进入>>

不学习就去卷卷

他的近期作品查看更多>>

统计学习方法（第二版）笔记
统计学习方法（第二版）笔记的思维导图，如泛化能力是指由该方法学习到的模型对未知数据的预测能力，是学习方法本质上的重要性质。

相似推荐
大纲

论语孔子简单思维导图
- 88.0k
- 941
- 1.1k
- 484
- 1
MindMaster
《傅雷家书》思维导图
- 133.6k
- 1.7k
- 2.7k
- 1.3k
- 0
MindMaster
《童年》读书笔记
- 45.5k
- 488
- 985
- 336
- 0
MindMaster
《茶馆》思维导图
- 12.6k
- 175
- 181
- 40
- 0
MindMaster
《朝花夕拾》篇目思维导图
- 26.0k
- 530
- 1.2k
- 301
- 0
MindMaster
《昆虫记》思维导图
- 33.4k
- 271
- 778
- 276
- 0
MindMaster
《安徒生童话》思维导图
- 18.5k
- 274
- 264
- 66
- 0
MindMaster
《鲁滨逊漂流记》读书笔记
- 21.5k
- 309
- 549
- 166
- 0
MindMaster
《这样读书就够了》读书笔记
- 98.0k
- 12.8k
- 9.0k
- 2.2k
- 0
Ethan
妈妈必读：一张0-1岁孩子认知发展的精确时间表
- 10.3k
- 1.7k
- 408
- 39
- 0
Ethan

统计学习（机器学习方法）

统计学习

统计学习的特点

统计学习的对象

数据

统计学习的目的

对数据的预测和分析

统计学习的方法

监督学习

无监督学习

强化学习

统计学习的分类

基本分类

监督学习

监督学习是从标注数据中学习预测模型的机器学习问题，标注数据表示输入输出的对应关系，预测模型对给定的输入产生相应的输出，监督学习的本质是学习输入到输出的映射的统计规律；

输入空间，特征空间，输出空间

联合概率分布

假设空间

问题的形式化

无监督学习

无监督学习是指从无标注数据中学习预测模型的机器学习问题，无标注数据是自然得到的数据，预测模型表示数据的类别，转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构；

强化学习

强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题；强化学习的本质是学习最优的贯序决策

半监督学习与主动学习

利用标注数据和未标注数据学习预测模型的机器学习问题

按模型分类

概率模型和非概率模型

两者的区别在于模型的内在结构，概率模型通常可以表示为联合概率分布的形式，非概率模型不一定存在这样的概率分布

逻辑斯谛回归两者兼具

概率模型

决策树朴素贝叶斯隐马尔可夫模型条件随机场概率潜在语义分析潜在狄利克雷分配高斯混合模型

非概率模型

感知机支持向量机 k近邻 AdaBoost k均值潜在语义分析神经网络

线性模型与非线性模型

线性模型

感知机线性支持向量机 k近邻 k均值潜在语义分析

非线性模型

深度学习是复杂的非线性模型学习

核函数支持向量机 AdaBoost 神经网络

参数化模型与非参数化模型

非参数化模型更加有效

参数化模型

假设模型参数维度固定，模型可以由有限维参数完全刻画；

感知机朴素贝叶斯逻辑斯谛回归 K均值高斯混合模型潜在语义分析概率潜在语义分析潜在狄利克雷分配

非参数化模型

假设模型参数的维度不固定或者无穷大，随着数据量的增加不断增加；

决策树支持向量机 AdaBoost k近邻

按算法分类

在线学习

随机梯度下降的感知机学习算法

批量学习

按技巧分类

贝叶斯学习

在概率模型的学习和推理中，利用贝叶斯定理，计算在给定数据条件下模型的条件概率，即后验概率，并应用这个原理进行模型的估计，以及对数据的预测；特点是使用模型的先验分布；

朴素贝叶斯潜在狄利克雷分配

核方法

使用核函数表示和学习非线性模型的一种机器学习方法，不显式定义映射，直接定义核函数

核函数支持向量机核PCA 核K均值

统计学习方法三要素

模型

条件概率分布模型

概率模型

决策函数模型

非概率模型

策略

损失函数和风险函数

监督学习是一个病态问题

损失函数（代价函数）

用来度量预测错误的程度

0-1损失函数

平方损失函数

绝对损失函数

对数损失函数

风险函数（期望损失）

理论模型f(x) 关于联合分布p(x,y)的平均意义下的损失

经验风险（经验损失）

模型关于训练数据集的平均损失

经验风险最小化与结构风险最小化

经验风险最小化（ERM）

经验风险最小的模型是最优的模型

例子

极大似然估计

模型是条件概率分布，损失函数是对数损失函数，经验风险最小化等价于极大似然估计

结构风险最小化（SRM）

等价于正则化

正则化项

罚项

例子

贝叶斯估计中的最大后验概率估计

模型是条件概率分布，损失函数是对数损失函数，模型复杂度由模型的先验概率表示，结构风险最小化就等价于最大后验概率估计

算法

用什么样的计算方法求解最优模型

监督学习应用

分类问题

输出变量Y取有限个离散值的预测问题是分类问题

分类

多分类

二分类

评价指标是准确率与召回率

过程

学习

分类

性能指标

分类准确率

例子

k近邻法感知机朴素贝叶斯决策树决策列表逻辑斯谛回归模型支持向量机提升方法贝叶斯网络神经网络 Winnow

标注问题

标注问题的输入是一个观测序列，输出是一个标记序列或状态序列，标注问题的目标在于学习一个模型，使它能够对观测序列给出标记序列作为预测

过程

学习

标注

性能指标

标注准确率精确率召回率

例子

隐马尔可夫·模型条件随机场

回归问题

找到输入变量到输出变量之间映射的函数，回归问题的学习等价于函数的拟合

过程

学习

预测

分类

按照输入变量的个数

一元回归

多元回归

按照输入变量和输出变量之间的关系

线性回归

非线性回归

损失函数

平方损失函数

用最小二乘法求解

生成模型与判别模型

生成方法

原理

由数据学习联合概率分布，然后求出条件概率分布作为预测的模型

例子

朴素贝叶斯法隐马尔可夫模型

特点

可以还原联合概率分布；学习收敛速度快；存在隐变量仍可以用

判断方法

原理

由数据直接学习决策函数，或者条件概率分布作为预测的模型

例子

k近邻法感知机逻辑斯谛回归模型最大熵模型支持向量机提升方法条件随机场

特点

直接面对预测，学习准确率更高；可以对数据进行各种程度上的抽样，定义特征，使用特征，简化学习问题

泛化能力

泛化能力是指由该方法学习到的模型对未知数据的预测能力，是学习方法本质上的重要性质

泛化误差

反应学习方法的泛化能力

泛化误差上界

性质

它是样本容量的函数，当样本容量增加时，泛化上界趋于0，它是假设空间容量的函数，假设空间容量越大，模型就越难学，泛化误差上界就越大

公式推导

正则化与交叉验证

正则化

原理

奥卡姆剃刀原理

在所有可能选择的模型中，能够很好的解释以知数据并且十分简单才是最好的模型，也就是应该选择的模型

作用

选择经验风险和模型复杂度同时较小的模型

交叉验证

重复的使用数据，把给定的数据进行切分，将切分的数据集组合为训练集与测试集，之后反复训练，测试以及模型选择

简单交叉验证

将数据分为两部分，一部分训练，一部分测试

S折交叉验证

分为S个不同的子集，S-1用于训练，余下的测试，选择S次评测中平均测试误差最小的模型

留一交叉验证

S=N的S折交叉验证

两种常用的模型选择方法

模型评估与模型选择

训练误差与测试误差

通常将学习方法对未知数据的预测能力称为泛化能力

训练误差

测试误差

过拟合与模型选择

过拟合

学习时选择的模型所包含的参数过多，出现模型对以知数据预测的很好，但是对未知数据预测的很差的现象；

模型选择

在模型选择时，不仅要考虑对以知数据的预测能力，还要考虑对未知数据的预测能力

监督学习的几个重要概念

从给定有限训练数据出发，假设数据是独立同分布的，假设模型属于某个假设空间，应用某一评价准则，从假设空间选取一个最优模型，使它对以知训练数据和未知测试数据在给定评价标准意义下有最准确的预测