导图社区 统计学习方法(第二版)笔记
统计学习方法(第二版)笔记的思维导图,如泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上的重要性质。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
统计学习(机器学习方法)
统计学习
统计学习的特点
统计学习的对象
数据
统计学习的目的
对数据的预测和分析
统计学习的方法
监督学习
无监督学习
强化学习
统计学习的分类
基本分类
监督学习是从标注数据中学习预测模型的机器学习问题,标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出,监督学习的本质是学习输入到输出的映射的统计规律;
输入空间,特征空间,输出空间
联合概率分布
假设空间
问题的形式化
无监督学习是指从无标注数据中学习预测模型的机器学习问题,无标注数据是自然得到的数据,预测模型表示数据的类别,转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构;
强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题;强化学习的本质是学习最优的贯序决策
半监督学习与主动学习
利用标注数据和未标注数据学习预测模型的机器学习问题
按模型分类
概率模型和非概率模型
两者的区别在于模型的内在结构,概率模型通常可以表示为联合概率分布的形式,非概率模型不一定存在这样的概率分布
逻辑斯谛回归两者兼具
概率模型
决策树 朴素贝叶斯 隐马尔可夫模型 条件随机场 概率潜在语义分析 潜在狄利克雷分配 高斯混合模型
非概率模型
感知机 支持向量机 k近邻 AdaBoost k均值 潜在语义分析 神经网络
线性模型与非线性模型
线性模型
感知机 线性支持向量机 k近邻 k均值 潜在语义分析
非线性模型
深度学习是复杂的非线性模型学习
核函数 支持向量机 AdaBoost 神经网络
参数化模型与非参数化模型
非参数化模型更加有效
参数化模型
假设模型参数维度固定,模型可以由有限维参数完全刻画;
感知机 朴素贝叶斯 逻辑斯谛回归 K均值 高斯混合模型 潜在语义分析 概率潜在语义分析 潜在狄利克雷分配
非参数化模型
假设模型参数的维度不固定或者无穷大,随着数据量的增加不断增加;
决策树 支持向量机 AdaBoost k近邻
按算法分类
在线学习
随机梯度下降的感知机学习算法
批量学习
按技巧分类
贝叶斯学习
在概率模型的学习和推理中,利用贝叶斯定理,计算在给定数据条件下模型的条件 概率,即后验概率,并应用这个原理进行模型的估计,以及对数据的预测;特点是 使用模型的先验分布;
朴素贝叶斯 潜在狄利克雷分配
核方法
使用核函数表示和学习非线性模型的一种机器学习方法,不显式定义映射,直接定义核函数
核函数支持向量机 核PCA 核K均值
统计学习方法三要素
模型
条件概率分布模型
决策函数模型
策略
损失函数和风险函数
监督学习是一个病态问题
损失函数(代价函数)
用来度量预测错误的程度
0-1损失函数
平方损失函数
绝对损失函数
对数损失函数
风险函数(期望损失)
理论模型f(x) 关于联合分布p(x,y)的平均意义下的损失
经验风险(经验损失)
模型关于训练数据集的平均损失
经验风险最小化与结构风险最小化
经验风险最小化(ERM)
经验风险最小的模型是最优的模型
例子
极大似然估计
模型是条件概率分布,损失函数是对数损失函数,经验风险最小化等价于极大似然估计
结构风险最小化(SRM)
等价于正则化
正则化项
罚项
贝叶斯估计中的最大后验概率估计
模型是条件概率分布,损失函数是对数损失函数,模型复杂度 由模型的先验概率表示,结构风险最小化就等价于最大后验概率估计
算法
用什么样的计算方法求解最优模型
监督学习应用
分类问题
输出变量Y取有限个离散值的预测问题是分类问题
分类
多分类
二分类
评价指标是准确率与召回率
过程
学习
性能指标
分类准确率
k近邻法 感知机 朴素贝叶斯 决策树 决策列表 逻辑斯谛回归模型 支持向量机 提升方法 贝叶斯网络 神经网络 Winnow
标注问题
标注问题的输入是一个观测序列,输出是一个标记序列或状态序列,标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测
标注
标注准确率 精确率 召回率
隐马尔可夫·模型 条件随机场
回归问题
找到输入变量到输出变量之间映射的函数,回归问题的学习等价于函数的拟合
预测
按照输入变量的个数
一元回归
多元回归
按照输入变量和输出变量之间的关系
线性回归
非线性回归
损失函数
用最小二乘法求解
生成模型与判别模型
生成方法
原理
由数据学习联合概率分布,然后求出条件概率分布作为预测的模型
朴素贝叶斯法 隐马尔可夫模型
特点
可以还原联合概率分布;学习收敛速度快;存在隐变量仍可以用
判断方法
由数据直接学习决策函数,或者条件概率分布作为预测的模型
k近邻法 感知机 逻辑斯谛回归模型 最大熵模型 支持向量机 提升方法 条件随机场
直接面对预测,学习准确率更高;可以对数据进行各种程度上的抽样,定义特征,使用特征,简化学习问题
泛化能力
泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上的重要性质
泛化误差
反应学习方法的泛化能力
泛化误差上界
性质
它是样本容量的函数,当样本容量增加时,泛化上界趋于0,它是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大
公式推导
正则化与交叉验证
正则化
奥卡姆剃刀原理
在所有可能选择的模型中,能够很好的解释以知数据并且十分简单才是最好的模型,也就是应该选择的模型
作用
选择经验风险和模型复杂度同时较小的模型
交叉验证
重复的使用数据,把给定的数据进行切分,将切分的数据集组合为训练集与测试集,之后反复训练,测试以及模型选择
简单交叉验证
将数据分为两部分,一部分训练,一部分测试
S折交叉验证
分为S个不同的子集,S-1用于训练,余下的测试,选择S次评测中平均测试误差最小的模型
留一交叉验证
S=N的S折交叉验证
两种常用的模型选择方法
模型评估与模型选择
训练误差与测试误差
通常将学习方法对未知数据的预测能力称为泛化能力
训练误差
测试误差
过拟合与模型选择
过拟合
学习时选择的模型所包含的参数过多,出现模型对以知数据预测的很好,但是对未知数据预测的很差的现象;
模型选择
在模型选择时,不仅要考虑对以知数据的预测能力,还要考虑对未知数据的预测能力
监督学习的几个重要概念
从给定有限训练数据出发,假设数据是独立同分布的,假设模型属于某个假设空间,应用某一评价准则,从假设空间选取一个最优模型,使它对以知训练数据和未知测试数据在给定评价标准意义下有最准确的预测
感知机
感知机模型
感知机学习策略
感知机学习算法
中心主题
主题