导图社区白话机器学习的数学

白话机器学习的数学

《白话机器学习的数学》知识梳理，包含机器学习简介，回归，分类，模型的评估，使用Python实现

编辑于2022-09-20 11:20:27 河南

我爱学习

他的近期作品查看更多>>

白话机器学习的数学

社区模板帮助中心，点此进入>>

我爱学习

他的近期作品查看更多>>

相似推荐
大纲

互联网9大思维
- 39.9k
- 977
- 2.5k
- 401
- 0
MindMaster
安全教育的重要性
- 8.6k
- 946
- 100
- 18
- 0
issen
组织架构-单商户商城webAPP 思维导图。
- 18.7k
- 3
- 186
- 9
- 1
Kacyun
个人日常活动安排思维导图
- 9.6k
- 0
- 84
- 0
- 0
少儿栏目外景策划波波老师
域控上线
- 4.4k
- 171
- 11
- 4
- 0
jackrao
西游记主要人物性格分析
- 19.4k
- 1.4k
- 647
- 103
- 0
issen
17种头脑风暴法
- 213.6k
- 4.3k
- 11.9k
- 4.1k
- 1
MindMaster
python思维导图
- 9.7k
- 557
- 242
- 7
- 0
(*^▽^*)
css
- 4.0k
- 1
- 43
- 3
- 0
A张舫
CSS
- 6.4k
- 272
- 189
- 33
- 0
journey

白话机器学习的数学

机器学习简介

回归

最小二乘法

误差函数(目标函数)

为了使得误差都为正数，使用预测值与实际值的差的平方

为了使得微分计算方便，常常在前面放一个系数1/2

乘正数使得图像纵向压缩，不改变极值点

最优化问题

找到使得误差函数最小的变量

最速下降法

沿着函数的梯度方向，向着最小值下降

注意学习率的选择

过大，结果不收敛

过小，计算次数增加

有可能陷入局部最小值

解决方法：随机梯度下降法

随机从训练数据中找m个来更新参数

多项式回归

使用目标函数的偏导数来求梯度，并更新带入

只有一个变量x，但有多个参数

多重回归

多个变量，多个参数

分类

内积

衡量向量之间相似程度的指标

结果为正，相似

为零，垂直

为负，反向相似

感知机

变量向量 · 权重向量

判别函数

权重向量实际定义了分界的直线向量

权重向量的更新

分类失败时更新权重向量，使得直线旋转相应的角度

缺点

只能解决线性可分问题

多层感知机就是神经网络

逻辑回归

sigmoid函数

将参数与变量的内积映射到(0,1)上，定义为概率大小

决策边界

将内积为0的直线作为决策边界

定义

为求得正确的参数而定义目标函数，求微分，更新参数

目标函数

把他们连乘在一起，求最大值

最大似然函数

似然函数中，使其值最大的参数最能够近似地说明训练数据

为了便于计算，常常进行对数变换，计算对数最大似然函数

参数的更新

最小化时按照与微分结果的符号相反的方向移动，最大化时按照与微分结果的符号相同的方向移动，注意是对目标函数进行的，参数在目标函数里面是作为变量存在的

解决线性不可分问题

加入高次项

模型的评估

定义

检查训练好的模型对测试数据的拟合情况

交叉验证

将数据分成两部分，一部分用于训练，一部分用于验证

回归问题的验证

在训练好的模型上计算测试数据的误差的平方，再计算其平均值

均方误差(MSE)

误差越小，精度越高

分类问题的验证

结果可能存在的类型表

精度Accuracy

表示整个数据中，被正确分类的数据所占比例

值越高，精度越高，模型越好

精确率Precision

被分对的P/分类结果中总的P(被分对的p+本来是N被分错为P的)

值越高，说明分类错误越少

召回率Recall

被分对的P/实际数据集中有的P(被分对的P+原本是P却被分错的P)

值越高，说明被正确分类的数据越高

数据不平衡的时候，使用数量少的那个，这里以P为例子

F值

权重β

调和平均

K折交叉验证

正则化(L2)

避免过拟合的方法

增加全部训练数据的数量

使用简单的模型

正则化

向目标函数增加正则化项

系数为常数的参数（偏置项）不用应用正则化

λ是决定正则化项影响程度的正的常数

防止参数变得过大，有助于参数接近较小的值

原理

通过减少不需要的参数的影响，将复杂模型替换为简单模型来防止过拟合的发生

学习曲线

欠拟合（高偏差）

由于模型本身表现力不够，无论使用训练数据还是测试数据精度都很差

过拟合（高方差）

只对训练数据拟合的很好

使用Python实现