导图社区 1.2深度学习的基础概念简介
本思维导图是对关于深度学习基础概念的一些总结,主要包括:深度学习的发展、机器学习的主要任务、机器模型的类型、如何优化模型。
社区模板帮助中心,点此进入>>
安全教育的重要性
个人日常活动安排思维导图
西游记主要人物性格分析
17种头脑风暴法
如何令自己更快乐
头脑风暴法四个原则
思维导图
第二职业规划书
记一篇有颜又有料的笔记-by babe
伯赞学习技巧
深度学习的基础概念简介
深度学习的发展
深度学习
隐含层数量在拟合数据准确性当中作用关键
现阶段的神经网络模型称作深度学习:隐含层多
新的网络连接方式和激活函数
CNN,RNN,残差网络
线性整流函数ReLU
引入的特殊结构使得梯度在网络内部有效传播
深度信念网络
叠合多层神经网络,逐层训练,微调训练
多层感知机
参数和函数量足够,可拟合任意函数
反向传播算法高效优化
网络层数少:有效优化;层数过多:较深网络当中使用BP导致梯度消失和爆炸
相对简单模型(如支持向量机)计算量大,准确率优势不明显
最早的人工神经网络:感知机
对输入进行单层线性变换进行分类
不能解决线性不可分问题
人工神经网络起源
模拟动物的神经元进行数据拟合/预测
函数模拟神经元当中信息的变换和传输
机器学习的主要任务
给定数据
现实中获取
数据
对周围发生的一些现象的数字化描述
像素排列构成图像,每个像素
三个数值(即红绿蓝(RGB)
或四个数值和透明度(RGBA)
字符串表示文本
音频
使用 16bit(即 65536)个值表示振幅
按照一定采样频率如 44.lkHz 来组成一段音频
按照数据有无标签,将机器学习分为
无监督学习
只有数据, 没有预测目标 构造具体的模型 找出数据的具体规律
聚类问题
找出相似的多组数据并归类
监督学习
拥有具体数据和预测目标(标签) 从数据出发 构造具体的模型预测这些目标
回归问题
预测连续的值 如由历史气温预测未来气温
分类问题
预测离散的值 如由图片预测图片描述的物体类型
半监督学习
构建模型
描述分布
机器模型的类型
基于联合概率分布
生成式模型
朴素贝叶斯(Naive Bayes, NB)
隐马尔可夫模型(Hidden Markov Model, HMM)
功能
根据输入数据X来预测对应的标签Y
根据训练得到的模型产生服从训练数据集分布的数据(X, Y)
基于条件概率分布
判别式模型
逻辑斯蒂回归(Logistic Regression,LR)
条件随机场(Conditional Random Fields, CRF)
仅能根据具体的数据X来预测对应的标签Y
准确率:条件>联合
定性
全概率公式当中引入了我们不关心的输入数据的概率分布P(X) 我们只关心给定X的情况下Y的分布,于是相对削弱了模型的预测能力
定量:信息熵
概率密度分布相对集中:概率密度包含的信息少,信息熵就小, 反之信息熵大
联合分布信息熵
条件分布信息熵
所有的离散分布和很多连续分布满足X的分布比较离散且相对均匀 即H(X) > 0 于是可知联合分布信息熵小于条件分布, 对应信息熵含义,可以认为判别式模型比生成式模型包含的信息更多
如何优化模型
举例说明
监督学习:回归(Regression)
最大似然估计计算最优参数
根据极大似然估计, 代入高斯分布的概率密度函数
化简有
根据极大似然估计,带入拉普拉斯分布的概率密度函数
损失函数
损失函数:argmin函数中需要优化的函数
分布函数为高斯函数: L2 模损失函数(L2-norm Loss Function) 或者方均误差函数(Mean Square Error,MSE)
分布函数为拉普拉斯分布(Laplacian Distribution): L1模损失函数(Ll-norm Loss Function)
监督学习:分类
多项分布
独热编码
概率分布
极大似然估计
求最小值: 一般的优化过程都是做极小化的优化, 相应的优化目标函数(即损失函数) 称之为交叉墒(Cross Entropy)
如何优化
数据集的划分
训练集
验证集
根据模型在验证集的表现, 决定具体使用的模型和模型对应的超参数
损失函数的表现
在训练集上持续减小
在验证集上先减小再增大
训练模型的过程中 模型的分布会逐渐趋向训练集的分布
训练集数据有限 且不能完全正确描述实际数据分布
这要求保待模型具有一定的泛化性: 用和训练集不同但数据源一致的数据验证模型时 损失函数不能太大
欠拟合区域(Under-fitting):直虚线左, 模型还没训练到验证集的损失函数最低点
过拟合(Over-fitting) 区域:直虚线右, 模型已完全偏向训练集, 失去了一定的泛化性
发生位置与 模型的参数数目 数据量大小有关系
数据量大:不易过拟合
参数多:容易过拟合
测试集
测试在验证集上进行的超参数调节在未针对性调参的数据集上的准确率
消除过拟合
参数的先验分布
没有假设参数的范围导致容易过拟合
人为假设参数服从一定分布规律减少参数的选择范围,减缓过拟合, 这个假设的分布规律叫做参数的先验分布
假设参数服从正态分布,将参数分布带入之前的L2损失函数(上图)
可以得到(上图)这个公式
可以发现,多了一项,其中
L2正则化
若采用拉普拉斯分布作为先验分布,则得到L1正则化方法 相应的正则化的项则表现为所有参数值的绝对值的和。
alpha :正则化系数
正则化系数越大,正则化的效果越强, 参数分布的标准差就越小,模型在训练中偏向欠拟合区域
通过调节正则化系数,就可以控制模型的拟合情况,使 得最后模型在验证集上尽量得到高的准确率
提前停止
验证集的损失函数停止下降开始上升: 模型进入过拟合区域,于是提前停止避免过拟合
Dropout
神经元的数值按照一定的概率置为零
优化器中权重衰减
本质原理:减小参数的变化空间,从而缩小模型的表示范围, 使得模型表示训练集数据的同时,也能很好地泛化到验证集数据的目的。