导图社区 机器学习思维导图
机器学习思维导图,讲述了基本术语、假设空间、阅读材料、应用现状、发展历程、归纳偏好等方面内容,结构型知识框架方便学习理解!
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
绪论
1.1引言
通过计算的手段,利用经验来改善系统自身的性能(自己修改自己)
1.2基本术语
有了数据
数据集
100个西瓜
样本
1个西瓜
特征向量
样本空间
颜色 大小 敲起来的振幅
纬度
属性
甜度
通过某种学习算法
得到模型
分类
二分类
多分类
回归
分类离散,回归连续
有监督学习
聚类
无监督学习
进行预测
测试
测试样板
泛化能力(模型适用于新样本的能力)
1.3假设空间
科学推理的手段
归纳:特殊到一般的“泛化”过程
狭义
从训练数据中得到概念
eg.布尔概念:是or不是
广义
从样本中学习
演绎:一般到特殊的“特化”过程
”版本空间“:学习过程中。存在的一个与训练集一致的”假设集合“
1.4归纳偏好
”归纳偏好“机器学习算法在学习过程中对某种类型假设的偏好---同一个数据集训练出了不同的模型,如何选择模型
原则
奥卡姆剃刀
选最简单的那个(越简单,共性越多,应用越广泛)
也有其他的理解
推了半天期望,由于假设不成立,跳过。。。
1.5发展历程
就是一种程序,有自我改善的能力,人为干预越少越好
1.6应用现状
1.7阅读材料
习题
区别:是否需要样本真实值
02模型评估与选择
一种训练集一种算法
2.1经验误差与过拟合【简述】
一些概念明确,以手写字体识别为例
m样本数量,比如有10000张手写字体的图片
Y样本正确的结果,比如第一张图片是1,第二张图片是7
使用模型进行预测,对一万张图片给出判断,预测的结果是Y'
其中a个错了
则error rate错误率:E=a/m
accuracy精度:1-E
error误差|Y-Y'|
2.2评估方法【训练集、验证集与测试集】
泛化能力
即模型对没有见过的数据的预测能力
训练集vs测试集
training test 训练集
testing set 测试集的保留方法
留出法
很简单的三七分、二八分
但是要注意训练集与测试集同分布
或者进行多次随机划分,训练出多个模型,最后取平均值
交叉验证法
k折交叉验证
子主题
缺点
数据量较大时,对算力要求较高
自助法
原理
适用
数据集较小,难以分割的时候
改变初始数据集发布,会引入估计偏差
validation set 验证集
调参很难,很多参数是人为规定的
比如三个参数,每个参数5个候选值 对于一个训练集/训练集就有5^3=125个模型需要考察
为了调参,经常会加一个数据集,验证集
训练集训练,验证集看结果,调参,再看验证集结果 参数调完,最后再测试集上看结果
2.3性能度量【具体公式】
performance management 性能度量
任务描述
在预测任务中,给定样例集D={(x1,y1),(x2,y2),....,(xm,ym)},其中yi是示例xi的真实标记,要评估学习器f的性能,就要把学习器预测结果f(x)与真实标记y进行比较。
mean squared error 均方误差
回归任务最常用的性能度量是“均方误差”
更一般的,对于数据发布D和概率密度函数p(•),均方误差可描述为
2.3.1错误率与精度
error rate 错误率
统计,满足括号里的条件的元素的个数的意思(||指示函数,括号内为真取1,否则取0)
accuracy
2.3.2查找率、查全率与F1
confusion matrix 混淆矩阵
Ture position
false position
true negative
false negative
percision 查准率 (你所认为的好瓜里面的确是好瓜的比例)
recall查全率
P-R曲线
举例说明
手写数字识别,分类器,二分类:是5 vs 不是5
实际上是随着阈值的移动,查全率与查准率程反向关系
混淆矩阵
P-R反向变动关系原理
阈值-PR图像
P-R图像
最优阈值的确定
方法一:使用平衡点Break-even Point (BEP)
R=P时R与P的值
方法二:F1度量
方法三Fbeta
举例
n个二分类实现的多分类问题
先分别计算,再求平均值
先平均再计算
一种训练集多种算法
2.3.3ROC与AUC
ROC Receiver Operating Characteristic
TPR,True Position Rate
False Positive Rate
ROC示意图
AUC Area Under ROC Curve
比较ABC三个模型的好坏
首先可以确定B和A优于C,BA之间优于交叉无法确定
对于AB
方法一:比较AB面积大大小,在一定程度上表征了模型的优劣,但是这个值不容易估算
方法二:F1
2.3.4 代价敏感错误率与代价曲线
多种训练集一种算法
2.5 偏差与方差
2.3.4代价敏感错误率与代价曲线
测试集上的性能在多大程度上保证真实的性能
2.4 比较检验