导图社区 白话机器学习的数学
《白话机器学习的数学》知识梳理,包含机器学习简介,回归,分类,模型的评估,使用Python实现
此篇导图与语音识别概述有关,其内容主要讲述两部分的内容:语音生成以及语音感知,同时介绍了语音识别是什么,如何评估等内容
无线通信系统前四章思维导图笔记整理。
社区模板帮助中心,点此进入>>
互联网9大思维
安全教育的重要性
组织架构-单商户商城webAPP 思维导图。
个人日常活动安排思维导图
域控上线
西游记主要人物性格分析
17种头脑风暴法
python思维导图
css
CSS
白话机器学习的数学
机器学习简介
回归
最小二乘法
误差函数(目标函数)
为了使得误差都为正数,使用预测值与实际值的差的平方
为了使得微分计算方便,常常在前面放一个系数1/2
乘正数使得图像纵向压缩,不改变极值点
最优化问题
找到使得误差函数最小的变量
最速下降法
沿着函数的梯度方向,向着最小值下降
注意学习率的选择
过大,结果不收敛
过小,计算次数增加
有可能陷入局部最小值
解决方法:随机梯度下降法
随机从训练数据中找m个来更新参数
多项式回归
使用目标函数的偏导数来求梯度,并更新带入
只有一个变量x,但有多个参数
多重回归
多个变量,多个参数
分类
内积
衡量向量之间相似程度的指标
结果为正,相似
为零,垂直
为负,反向相似
感知机
变量向量 · 权重向量
判别函数
权重向量实际定义了分界的直线向量
权重向量的更新
分类失败时更新权重向量,使得直线旋转相应的角度
缺点
只能解决线性可分问题
多层感知机就是神经网络
逻辑回归
sigmoid函数
将参数与变量的内积映射到(0,1)上,定义为概率大小
决策边界
将内积为0的直线作为决策边界
定义
为求得正确的参数而定义目标函数,求微分,更新参数
目标函数
把他们连乘在一起,求最大值
最大似然函数
似然函数中,使其值最大的参数最能够近似地说明训练数据
为了便于计算,常常进行对数变换,计算对数最大似然函数
参数的更新
最小化时按照与微分结果的符号相反的方向移动,最大化时按照与微分结果的符号相同的方向移动,注意是对目标函数进行的,参数在目标函数里面是作为变量存在的
解决线性不可分问题
加入高次项
模型的评估
检查训练好的模型对测试数据的拟合情况
交叉验证
将数据分成两部分,一部分用于训练,一部分用于验证
回归问题的验证
在训练好的模型上计算测试数据的误差的平方,再计算其平均值
均方误差(MSE)
误差越小,精度越高
分类问题的验证
结果可能存在的类型表
精度Accuracy
表示整个数据中,被正确分类的数据所占比例
值越高,精度越高,模型越好
精确率Precision
被分对的P/分类结果中总的P(被分对的p+本来是N被分错为P的)
值越高,说明分类错误越少
召回率Recall
被分对的P/实际数据集中有的P(被分对的P+原本是P却被分错的P)
值越高,说明被正确分类的数据越高
数据不平衡的时候,使用数量少的那个,这里以P为例子
F值
权重β
F1
调和平均
K折交叉验证
正则化(L2)
避免过拟合的方法
增加全部训练数据的数量
使用简单的模型
正则化
向目标函数增加正则化项
系数为常数的参数(偏置项)不用应用正则化
λ是决定正则化项影响程度的正的常数
防止参数变得过大,有助于参数接近较小的值
原理
通过减少不需要的参数的影响,将复杂模型替换为简单模型来防止过拟合的发生
学习曲线
欠拟合(高偏差)
由于模型本身表现力不够,无论使用训练数据还是测试数据精度都很差
过拟合(高方差)
只对训练数据拟合的很好
使用Python实现