导图社区 机器学习之基本分类学习
本图总结了机器学习中基本分类算法,如Fisher判别函数和感知机算法,逻辑回归算法,朴素贝叶斯算法等,对后续学习神经网络包括深度神经网络十分有帮助。
总结了循环神经网络RNN的基本内容,如RNN基本结构原理、RNN计算训练的BPTT算法、长短期记忆模型LSTM和门控循环单元GRU的基本原理等
总结了卷积神经网络的主要内容,如基本概念,卷积运算,基本结构,参数学习方法以及一些卷积神经网络实例结构。
总结了最基本的神经网络结构——多层感知机MLP和前馈网络FNN,在此基础上总结了神经网络的目标函数和优化技术,反向传播算法计算目标函数对网络权系数的梯度问题,以及神经网络优化的辅助技术如初始化、正则化等。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
机器学习 基本分类学习
分类任务
二分类
二值单变量,y=1或0
多分类
编码向量,y=[0,...,0,1,0,...,0]T,yk=1表示第k类
基本分类问题
判别函数模型
线性模型
广义线性模型
激活函数
常见分类器
经典感知机
Fisher判别函数
支持向量机SVM
判别概率模型
后验概率判别
错误代价相同
直接根据后验概率分类
错误代价不同
设置加权矩阵
常见应用
深度神经网络分类任务
生成概率模型
联合概率集
生成模型
生成模型得到后验概率
朴素贝叶斯算法
对抗生成网络
判别概率模型与生成概率模型区别
直接训练得到类后验概率表达式
直接训练得到联合概率模型,然后获得类后验概率
两者都是用类后验概率分类决策
线性判别函数模型
线性判别函数几何解释
K维空间的一个平面
输入样本空间分解
与判决面的距离
二分类问题的解决方法
LS解存在性能上的诸多缺陷,实际中很少使用
支持向量机SVM是实际中应用最多的一种判别函数方法
另外曾有重要影响力的两类方法
Fisher线性判别分析LDA
感知机
实质
不是标准的线性判别函数模型
实际上是一种通过降维对数据类型进行最大分离的方法
但结果与线性判别函数模型是一致的
二分类Fisher LDA
样本在向量w上的一维投影
不同类型样本D1,D2的投影子集
问题本质
求最优w使集合Y1和Y2具有最大的分离性
重要变量
类样本均值
样本投影值
每类投影均值
类投影均值之差
散布量
类内散布量
总类内散布量
类内散布矩阵
类间散布矩阵
Fisher准则函数
最优方向向量解wo
多类Fisher LDA
样本投影
样本投影的第i个分量
样本投影向量
样本均值
全样本均值
最优方向矩阵W满足
神经学解释
生物神经细胞的简单抽象,描述突触(权量)、阈值(偏量)和细胞体(激活函数)
判别函数
感知机结构框图
感知机目标函数
感知机权系数迭代更新
感知机“异或”问题
线性不可分,感知机无法解决
解决方法
构建感知网络
多个感知机神经元并联和级联组成多层感知网络
引入非线性变换
通过基函数,将线性不可分样本集映射为线性可分集
判决面
基函数空间判决面映射到原空间为非线性曲面
感知机不能保证得到最优判决面,但可通过支持向量机SVM方法得到
逻辑回归
解释
一种判别概率模型,直接从样本中训练类后验概率表示
虽然叫“回归”,但逻辑回归是一种基本的分类模型
二分类问题的逻辑回归
后验概率假设
模型回归值
似然函数
交叉熵准则
最大似然原理对应着交叉熵的最小化
算法
随机梯度算法SGD
每次只用一个样本
目标函数梯度
迭代公式
重加权最小二乘IRLS算法
基函数数据矩阵
Hessian矩阵
牛顿迭代法
正则化逻辑回归(解决过拟合)
权衰减正则化目标函数
随机梯度算法梯度向量
随机梯度法SGD迭代公式
多分类问题的逻辑回归
所有样本联合概率
损失函数(负对数似然函数)
SGD迭代公式
朴素贝叶斯方法
模型介绍
需要学习得到联合概率,再通过贝叶斯公式得到分类的后验概率
朴素贝叶斯假设
在类型确定的条件下,特征向量的各分量是统计独立的
概率结构
类后验概率
拉普拉斯平滑
最大似然估计的局限性
特征向量x的维度很大,训练样本集规模有限时,后验概率容易无解
拉普拉斯平滑可以改善离散随机变量的最大似然零概率估计
标准最大似然估计修改
本质解释
增广样本集
对待估计的随机变量取值施加等概率的先验分布,但是不显式地使用贝叶斯框架,而是虚拟地产生k个附加样本
“正则化”最大似然估计
由于假设等概率先验,假想可将集合中的每个值各取一次作为一个虚拟样本,将这k个虚拟样本加到样本集中,构成一个增广样本集,则拉普拉斯变换相当于用这一增广样本集做的最大似然估计
拉普拉斯平滑相当于一种“弱”贝叶斯方法,或相当于一种“正则化”的最大似然方法
参数修改
朴素贝叶斯模型的更一般情况
分类结果
机器学习理论简介
概率近似正确理论PAC
经验风险
机器学习模型h(x)在训练样本集上的分类错误率
泛化误差
表示总体统计意义上的误分类率
机器学习目标
在H函数模型空间找到泛化误差最小的假设
但实际无法事先获得联合概率密度,而只能通过经验风险最小化ERM获得近似函数模型
当样本量N充分大时,经验风险最小化结果收敛至泛化误差最小化结果
假设空间有限时的泛化误差界
界
泛化误差界
下式以不小于1-δ的概率成立
假设空间无限时的泛化误差界
VC维d
能被函数模型打散的点集的最大元素数
所需样本数与假设空间的VC维呈线性关系