导图社区机器学习思维导图

机器学习思维导图

机器学习思维导图，讲述了基本术语、假设空间、阅读材料、应用现状、发展历程、归纳偏好等方面内容，结构型知识框架方便学习理解！

编辑于2021-09-20 18:08:12

基本术语

zzz

他的近期作品查看更多>>

机器学习思维导图
机器学习思维导图，讲述了基本术语、假设空间、阅读材料、应用现状、发展历程、归纳偏好等方面内容，结构型知识框架方便学习理解！

机器学习思维导图

社区模板帮助中心，点此进入>>

zzz

他的近期作品查看更多>>

机器学习思维导图
机器学习思维导图，讲述了基本术语、假设空间、阅读材料、应用现状、发展历程、归纳偏好等方面内容，结构型知识框架方便学习理解！

相似推荐
大纲

论语孔子简单思维导图
- 87.4k
- 936
- 1.1k
- 482
- 1
MindMaster
《傅雷家书》思维导图
- 133.1k
- 1.7k
- 2.7k
- 1.3k
- 0
MindMaster
《童年》读书笔记
- 45.2k
- 488
- 985
- 336
- 0
MindMaster
《茶馆》思维导图
- 12.5k
- 175
- 181
- 40
- 0
MindMaster
《朝花夕拾》篇目思维导图
- 25.8k
- 529
- 1.2k
- 301
- 0
MindMaster
《昆虫记》思维导图
- 33.0k
- 270
- 778
- 276
- 0
MindMaster
《安徒生童话》思维导图
- 18.2k
- 274
- 264
- 66
- 0
MindMaster
《鲁滨逊漂流记》读书笔记
- 21.3k
- 309
- 549
- 166
- 0
MindMaster
《这样读书就够了》读书笔记
- 97.7k
- 12.8k
- 9.0k
- 2.2k
- 0
Ethan
妈妈必读：一张0-1岁孩子认知发展的精确时间表
- 10.1k
- 1.7k
- 407
- 40
- 0
Ethan

02模型评估与选择

一种训练集一种算法

2.1经验误差与过拟合【简述】

一些概念明确，以手写字体识别为例

m样本数量，比如有10000张手写字体的图片

Y样本正确的结果，比如第一张图片是1，第二张图片是7

使用模型进行预测，对一万张图片给出判断，预测的结果是Y'

其中a个错了

则error rate错误率：E=a/m

accuracy精度：1-E

error误差|Y-Y'|

2.2评估方法【训练集、验证集与测试集】

泛化能力

即模型对没有见过的数据的预测能力

训练集vs测试集

training test 训练集

testing set 测试集的保留方法

留出法

很简单的三七分、二八分

但是要注意训练集与测试集同分布

或者进行多次随机划分，训练出多个模型，最后取平均值

交叉验证法

k折交叉验证

子主题

缺点

数据量较大时，对算力要求较高

自助法

原理

子主题

适用

数据集较小，难以分割的时候

缺点

改变初始数据集发布，会引入估计偏差

validation set 验证集

调参很难，很多参数是人为规定的

比如三个参数，每个参数5个候选值对于一个训练集/训练集就有5^3=125个模型需要考察

为了调参，经常会加一个数据集，验证集

训练集训练，验证集看结果，调参，再看验证集结果参数调完，最后再测试集上看结果

2.3性能度量【具体公式】

performance management 性能度量

任务描述

在预测任务中，给定样例集D=｛（x1，y1)，（x2，y2)，....，（xm，ym）｝，其中yi是示例xi的真实标记，要评估学习器f的性能，就要把学习器预测结果f(x)与真实标记y进行比较。

mean squared error 均方误差

回归任务最常用的性能度量是“均方误差”

更一般的，对于数据发布D和概率密度函数p(•)，均方误差可描述为

2.3.1错误率与精度

error rate 错误率

子主题

统计，满足括号里的条件的元素的个数的意思（||指示函数，括号内为真取1，否则取0）

accuracy

2.3.2查找率、查全率与F1

confusion matrix 混淆矩阵

子主题

Ture position

false position

true negative

false negative

percision 查准率（你所认为的好瓜里面的确是好瓜的比例）

recall查全率

子主题

P-R曲线

举例说明

手写数字识别，分类器，二分类：是5 vs 不是5

实际上是随着阈值的移动，查全率与查准率程反向关系

混淆矩阵

子主题

P-R反向变动关系原理

子主题

阈值-PR图像

子主题

P-R图像

子主题

最优阈值的确定

方法一：使用平衡点Break-even Point (BEP)

R=P时R与P的值

方法二：F1度量

方法三Fbeta

举例

n个二分类实现的多分类问题

先分别计算，再求平均值

先平均再计算

一种训练集多种算法

2.3.3ROC与AUC

ROC Receiver Operating Characteristic

TPR，True Position Rate

False Positive Rate

ROC示意图

AUC Area Under ROC Curve

P-R曲线

子主题

比较ABC三个模型的好坏

首先可以确定B和A优于C，BA之间优于交叉无法确定

对于AB

方法一：比较AB面积大大小，在一定程度上表征了模型的优劣，但是这个值不容易估算

方法二：F1

方法三Fbeta

2.3.4 代价敏感错误率与代价曲线

多种训练集一种算法

2.5 偏差与方差

2.3.4代价敏感错误率与代价曲线

测试集上的性能在多大程度上保证真实的性能

2.4 比较检验