导图社区 统计学习
详细介绍支持向量机、Boosting、最大熵、条件随机场等十个统计学习方法。 李航 日本京都大学电气工程系毕业,日本东京大学计算机科学博士。曾任职于日本NEC公司中央研究所,微软亚洲研究院高级研究员及主任研究员,现任华为诺亚方舟实验室首席科学家。北京大学、南开大学、西安交通大学客座教授。研究方向包括信息检索、自然语言处理、统计机器学习及数据挖掘。
皮肤的结构思维导图,包括表皮、真皮、皮下组织(皮下脂肪层)、皮下附属器(由外胚层分化而来)、皮肤的神经,脉管,肌肉的相关内容。
包括皮肤性病学的定义 皮肤性病学的范畴 世界皮肤性病学发展的简史 中国皮肤性病学发展的简史 世界皮肤性病学的现状 中国皮肤性病学的现状 皮肤性病学的学科特点 关于皮肤性病学的学习路径
考研西医综合大纲包括生理学大纲(约14%)西综生化大纲约(12%)病理学大纲(约12%)内科学(含诊断学)约33%外科学大纲(含骨科学)约23%临床医学人文精神(约6%)。
社区模板帮助中心,点此进入>>
费用结算流程
租赁费仓储费结算
E其它费用
F1开票注意事项
F2结算费用特别注意事项
洛嘉基地文件存档管理类目
CFA一级Ethics-standard思维导图
货币政策对黄金价格的传导机制
云报税(个税)
收入
统计学习
统计学习的特点
建立在计算机及网络上
以数据为研究对象
目的是对数据进行预测与分析
以方法为中心
基于交叉学科,逐步形成理论体系
统计学习分类
基本分类
监督学习
输入空间,特征空间,输出空间
联合概率分布
假设空间
问题的形式化
利用训练数据集学习一个模型,再用模型对测试样本集进行预测
无监督学习
本质是学习数据中的统计规律或潜在结构
强化学习
智能系统在与环境的连续互动中学习最优行为策略
马尔可夫决策过程(S,A,P,r,伽马)
半监督学习与主动学习
主动学习的目标是找出对学习最有帮助的实例让教师标注,较小代价,较好学习效果
更接近监督学习
按模型分类
概率模型与非概率模型
概率模型一定可以表示为联合概率分布的形式
非概率模型取函数形式y = f(x)
线性模型与非线性模型
参数化模型与非参数化模型
参数化模型即可以由有限维参数完全刻画
按算法分类
在线学习
每次接受一个样本,进行预测,之后学习模型,并不断重复该操作。
批量学习
批量学习相对容易获得准确率更高的模型
按技巧分类
贝叶斯学习
计算在给定数据条件下模型的条件概率
先验概率(P(模型参数)),后验概率(P(参数|数据)),似然函数
核方法
统计学习方法三要素(监督学习下的)
模型
条件概率分布或决策函数
生成模型
还原出联合概率分布,学习收敛速度更快,适用于存在隐变量情况
判别模型
直接面对预测,学习准确率更高
策略
损失函数
0-1损失函数
平方损失函数
绝对损失函数
对数损失函数
风险函数
损失函数的期望值表达式即为风险函数或期望损失
当样本容量较大时,常用经验风险估计期望风险
经验风险最小化
样本容量足够大,认为经验风险最小化是最优模型
结构风险最小化
防止过拟合(over-fitting)
经验风险+表示模型复杂度的正则化项或罚项
算法
模型评估与选择
训练误差与测试误差
关于训练/测试数据集的平均损失
学习方法评估的标准
测试误差小的方法具有更好的预测能力
(学习方法对未知数据的预测能力称为泛化能力)
过拟合
模型选择
模型选择旨在避免过拟合并提高模型的预测能力
首先确定模型复杂度,然后基于经验风险最小化的策略,求解参数
正则化(模型选择方法)
交叉验证(模型选择方法)
训练集,验证集,测试集
数据充足情况下的简单验证
交叉验证
基本想法是重复使用数据
简单交叉验证
s折交叉验证
留一交叉验证
S=N
数据缺乏情况下
泛化能力
泛化误差
非“测试误差”,从理论上对泛化能力进行分析
所学习到的模型的期望风险
泛化误差上界
是样本容量的函数
样本容量越大,泛化上界趋于0
是假设空间容量的函数
假设空间容量越大,越难学,泛化误差上界越大
监督学习应用
分类问题
过程:学习和分类
分类器,分类准确率,精准率,召回率
应用:文本分类,根据文本特征划分到已有的类中
标注问题
过程:学习和标注
分类问题的推广,对观测序列给出标记序列
标注准确率,精准率,召回率
应用:信息抽取,自然语言处理,词性标注(对一个单词序列预测其对应的词性标记序列)
回归问题
过程:学习和预测
回归模型,函数拟合,一元/多元回归,线性/非线性回归
常用损失函数:平方损失函数,用最小二乘法求解
应用:投资风险分析,股价预测