导图社区 深度学习
这是一篇关于深度学习的思维导图,深度学习(Deep Learning,简称DL)是机器学习的一个分支,它基于人工神经网络的研究,近年来因大数据和计算能力的提升而得到了显著发展。以下是对深度学习的详细概述供初学者参考。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
深度学习
全连接神经网络(Full Connect Neural Network):相邻两层的任意两个神经元都有连接。
构架
输入层
隐藏层
输出层
学习和训练
权重矩阵w和偏置b:寻找使损失函数最小化的w、b。
损失函数:度量训练样本的输出损失。
√一般使用梯度下降算法来找到损失函数的最小值。
√前馈神经网络:信息单向流通
√每个神经元都做一次仿射变换(线性)和非线性变换。
对输入数据进行平移、旋转、缩放等操作,使得输入数据能够在不同的视角、尺度上被处理。
激活函数
√引入非线性。
√通过抑制或激发神经元的输出调整网络的学习和表示能力。
√使神经元的输出限制在一定范围内:避免梯度爆炸或梯度消失等问题。
数据拟合
最佳拟合:学习到数据中的规律并避开随机数据点和噪声。
过拟合:对训练数据集死记硬背的结果,记住了数据中不必要的细节与特征。(在训练集表现良好,测试集表现差劲)
√模型过于复杂。
√训练数据集不足。
正则化:通过在训练期间向损失函数上添加惩罚项,可以防止模型变得过于复杂或具有较大的参数值,也有助于避免模型在训练数据中学到更多的噪声。防止过拟合并提高模型的泛化能力。
L1正则化

√权重w的标准范数(元素绝对值之和)→使元素可以等于0。
√会产生稀疏解。这种稀疏性可用于特征选择,即在特征集中选出有意义的特征,简化模型的学习。
L2正则化 (权重衰减)
√权重w的平方范数(元素绝对值的平方之和再开方)→使元素接近0。
√对权重进行平滑,避免特定权重过大,从而减缓过拟合的风险。
√保留了所有特征,因为权重参数不会衰减至0。
√λ>0为正则系数,α>0为学习率。
√使用正则化方法时一般只对权重做惩罚,对偏置参数做惩罚可能会导致欠拟合。
Dropout (暂退法)
√随机删除神经网络中的一些神经元,包括这些神经元的输入和输出连接。
√降低网络对特定节点的依赖性,增加神经网络的鲁棒性。防止网络在训练集上学到特定的噪音或细节,从而提高神经网络的泛化能力。
ρ:网络层中的神经元以独立于其它神经元的概率ρ 被删除,一般设ρ=0.5。
√为了弥补删除神经元可能带来的输出缩放,神经元的输出h 要乘上一个系数,这样输出的期望值可保持不变。
优化算法
√迭代更新神经网络中的参数,使得损失函数逐渐减小。
梯度下降算法:由损失函数对应参数的偏导数组成。沿着梯度向量的方向/反方向可以找到损失函数的极大/小值。
步骤
1.计算损失函数对初始参数的偏导数,得到梯度向量。
3.重复直到损失函数足够小或者达到设置的迭代次数。
2.沿梯度向量的反方向优化参数值,以减小损失函数。
全部样本训练的批量梯度下降算法(Batch Gradient Descent)
小批量梯度下降算法(Mini-Batch Gradient Descent),每次随机选择n个样本求解梯度并优化参数,这种随机性能提高模型的泛化能力
随机梯度下降算法(Stochastic Gradient Descent):收敛较慢。因为随机梯度下降算法每次只计算1个样本,导致迭代方向变动过多,不能很快的收敛。
动量法(Momentum)
使用小批量梯度下降算法训练时,因为是随机抽取不同批次的样本来计算梯度,如果不同批次的样本数据差距较大,就会导致参数震荡,难以收敛。
动量法改进了参数的更新方式,通过引入动量项减小参数的震动同时加速收敛过程。
动量向量mt-1:之前时刻梯度的加权平均; β:正值动量参数<1; ∇L(θt):当前时刻的梯度。
√如果过去时刻的梯度方向比较一致,参数更新的步幅就会大一些。反之加权平均值会变小,参数更新的步幅就会小一些。
训练初期:梯度方向比较一致,动量法能加速更新。
训练后期:梯度方向不太一致,动量法能减小参数更新时的震荡。
均方根传播(Root Mean Square Propagation)
√一种自适应调节学习率的优化算法,可以避免梯度下降算法因手动设置学习率从而可能导致的模型难收敛问题。
√每次优化时会计算梯度平方的指数衰减移动平均,学习率会除以这个指数加权平均值。
vt:指数加权平均值。 ε:一个极小值,防止分母为零。
Adam算法(Adaptive Moment Estimation)
√结合了动量法和均方根传播算法的思想。
√其中β1、β2 是衰减系数。通常取β1=0.9,β2=0.999。√mt和vt分别是梯度的一阶矩和二阶矩。
√如果初始化m0、υ0为0,那么mt和υt在训练初期会有较大的偏差,这种偏差会影响参数更新的方向和速度。
应用Dropout 的神经网络模型
神经网络信息传播流程
表示学习
结果
预测
高层特征
底层特征
输入数据
每个非线性网络层将一个级别的表示转换为更高、更抽象级别的表示。
从数据中学习特征,其中较高级别的特征源自 较低级别的特征。
使用级联的非线性网络层进行特征提取和转换。
浅层学习
模型无法自主从输入数据中学习有效的特征,而是需要人工设计特征提取器,将输入数据转换为合适的特征向量。
机器学习
1.构造一个高质量的数据集
处理缺失值和异常值,同时可以对数据进行归一化处理,使得网络训练稳定。
2.特征提取
从原始数据中提取与整体学习任务相关的特征,好的特征能提高机器学习模型的性能。
使用特征转换方法对特征进一步加工,如降维和升维。
1.主成分分析
2.局部线性嵌入
3.字典学习
4.多维尺度分析
3.模型的训练与预测结果
通过迭代优化来更新模型的参数,直到模型收敛。