导图社区 深度学习的过去、未来
深度学习的过去、未来:包含从手工设计的编码到学习的分布式表示,使用神经活动向量来表示概念,并通过权重矩阵来捕捉概念之间的关系等等
编辑于2022-10-17 15:43:19 福建省这是一篇关于现代教育技术概论思维导图,主要包含教师专业能力发展、学生学为中心、整合技术的学科内容教学TPC、教学模式创新等。
“本教材主要介绍近年来产生发展的多种智能优化算法。包括为人熟知的遗传算法、禁忌搜索算法、模拟退火算法和蚁群优化算法;近年来已成为研究热点的粒子群优化算法;还有尚待普及的捕食搜索算法和动态环境下的进化计算。书中讨论这些算法的产生和发展、算法的基本思想和理论、基本构成、计算步骤和主要的变形以及数值例子和实际应用。为了方便读者学习,各章之后还附有精选的习题、思考题及相关的参考文献。本教材是为“智能优化方法”这门研究生课程编写的
对于口语基础较差,或是因为发音不标准而不敢开口的学生,学习阻碍更大。 英语口语评测系统,是专为大学英语口语教学提供的训练、测评系统。一方面给学生提供了良好的口语学
社区模板帮助中心,点此进入>>
这是一篇关于现代教育技术概论思维导图,主要包含教师专业能力发展、学生学为中心、整合技术的学科内容教学TPC、教学模式创新等。
“本教材主要介绍近年来产生发展的多种智能优化算法。包括为人熟知的遗传算法、禁忌搜索算法、模拟退火算法和蚁群优化算法;近年来已成为研究热点的粒子群优化算法;还有尚待普及的捕食搜索算法和动态环境下的进化计算。书中讨论这些算法的产生和发展、算法的基本思想和理论、基本构成、计算步骤和主要的变形以及数值例子和实际应用。为了方便读者学习,各章之后还附有精选的习题、思考题及相关的参考文献。本教材是为“智能优化方法”这门研究生课程编写的
对于口语基础较差,或是因为发音不标准而不敢开口的学生,学习阻碍更大。 英语口语评测系统,是专为大学英语口语教学提供的训练、测评系统。一方面给学生提供了良好的口语学
深度学习的过去、未来
从手工设计的编码到学习的分布式表示
人工智能有两种范式
逻辑启发范式
旨在通过手工设计的逻辑推理规则在计算机中实现推理
这些规则通过手工设计的将知识形式化的符号表达运作
符号内部没有意义
符号的意义在与其他符号的关系
这些关系可以用一组符号表达式或关系图来表述
受大脑启发的范式
将从数据中学习表征视为智能的本质
旨在通过手动设计或演化人工神经元模拟网络中连接强度的变化规则来学习
用于交流的外部符号被转换成神经活动的内部向量
这些向量具有非常丰富的相似结构
活动向量可用于通过为每个符号学习适当的活动向量并学习允许填充与符号串缺失元素对应的活动向量的非线性变换来对一组符号串中固有的结构进行建模
Rumellhart 等人首先在小的示例数据集上证明了这一点
Bengio等人也用真实世界的句子进行了验证
最新的式BERT, 它利用自注意力来动态连接单元组
使用神经活动向量来表示概念,并通过权重矩阵来捕捉概念之间的关系
这种方式的主要优点
其自动的泛化性
如果表示星期二和星期四的向量非常相似,那么二者对其他神经活动向量产生的影响也会非常相似
这有利于类比推理
并直接表明、直观的类比推理是我们的主要推理模式
而逻辑顺序推理是较晚才发展出来的
深度学习的兴起
2000年代初
深度学习引入让人们能容易地训练深层的网络,激发了神经网络领域的研究热度
加上开源软件平台的支持(Theano, Torch, Caffe, Tensorflow, Pytorch)
GPU以及大型数据集的出现是深度学习的关键推动因素
训练复杂的深度网络以及调用最新的模型都变得更容易
但更多层的组合使更复杂的非线性关系成为可能,并在感知任务中表现不俗
为什么必须有一定的深度?
为什么更深的网络具有更好的泛化性?
深度网络通常比相同参数量的前程网络有更好的泛化能力
最流行的计算机卷积网络架构是resNet家族
最常见的代表resnet-50 有50层
其他在事件中非常有用的神经网络训练技巧
图像变换, drop-out, batch normalization
深度学习之所以出色,是因为它利用了一种特定形式的组合性
在上一层中的特征能以多种不同的方式组合、
在下一层中创造更多抽象的特征
对于感知这样的任务
这种组合非常有效
并且强有力的证据已经表明生物的感知系统中也使用了这种机制
无监督预训练
当有标签的训练用例的数量于某任务所需要的神经网络的复杂性相比较小
先使用一些其他信息源来创建特征检测器层
然后再使用数量有限的有标签的训练用例微调
迁移学习中
预训练的信息来源
是另一个学习了大量标签的有监督学习任务
不使用任何标签来创建多层特征检测器的活动向量也开始可行的,可通过堆砌多层自编码器就可以实现
首先
学习一层特征检测器
其活动向量能让我们重建输入
然后
学习第二层特征检测器
活动向量能够让我们重建第一层特征检测器的活动向量
以这种方式学习了几个隐藏层后
再尝试用最后一个隐藏层中的活动向量预测标签
并通过所有层反向传播误差
以便微调最初的特征检测器
过程中不使用标签中的信息
预训练提取的各种结构很可能与最终分类无关
但再算力很便宜但有标签数据很昂贵的情况下
只要预训练输入能转换成为使分类更容易的表征
这是行得通的
除了提高泛化能力外
无监督预训练初始化权重的方式还更有利于反向传播对深度神经网络进行微调
预训练对调优的影响曾经里程碑式的改变了人们对深度网络很难训练的固有认知
但现在有了ReLU和残差连接的出现,这一点已经不重要了
实践证明
预训练对提高泛化能力是非常重要的
通过预训练
可以利用大量无标签的数据来训练体量巨大的模型
例如
在自然语言处理中
有大型的语料库可以用来预训练
预训练和微调的基本原则已经成为深度学习领域的重要工具
在涉及到迁移学习,甚至现代元学习时
预训练和微调的思想往往不可或缺
ReLU的成功之谜
深度网络早期使用logic sigmoid函数或双曲正切(hyperbolic tangent)来对单元层进行无监督的预训练
长期以来,神经科学中一直有关于线性整流函数(现在称为ReLU,具有许多现代变体)的猜想,并且在RBM的某些变体以及卷积神经网络中以及有了应用
使用ReLU能更容易地训练深度网络(通过反向传播和随机梯度下降),无需逐层预训练
这一技术的进步使得深度学习能够在目标检测方面胜过先前的方法
语音识别和目标检测方面的突破
声学模型开以将声波转换为在不同因素片段上的概率分布
Robinson 使用晶片机和Morgan等人使用DSP芯片做出的接触贡献已经表明,如果有足够的处理能力,神经网络的表现可以与最先进的声学建模相媲美
2009年
两名研究生使用Nvidia GPU 进行的实验表明,经过预训练的深度神经网络在TIMIT数据集上的表现略优于SOTA。这一结果重燃前沿的语音研究组对神经网络的兴趣
2010年
结构基本相同的深度网络在大词汇语音识别方面击败了SOTA,而且是在不需要特定说话者训练数据的前提下
2012年
谷歌上线了生产版本的语音识别,显著改变了Android上的语音搜索功能。
这是深度学习颠覆性力量的早期证明
2012年
深度学习在ImageNet竞赛中取得了重大胜利——在识别自然图像中一千种不同类别物体的任务上,将错误率降低了几乎一半
李飞飞和她的团队做出了突出贡献,收集了超过一百万张带标签的图像作为训练集
Alex krizhevsky 非常高效地同时使用多个GPU进行训练
现在的硬件(包括GPU)适合使用大量的mini-batch 以在参数被多次使用时分摊从内存中读出这个参数的成本。
每个参数只读取一次的存在线随机梯度下降更够更快收敛,而未来的硬件可能旨在本地使用参数,而不需要从内存中读取
深度卷积神经网络包含一些新颖的特征,例如使用ReLU来加快学习,使用Dropout来防止过拟合,但它本质上也还是Yann LeCun 和他的团队很多年前就在研究的那种前馈卷积神经网络
深度学习对计算机视觉的提升很大
深度学习的近期发展
Soft attention 和 transformer 架构
乘法交互(尤其是Soft attention)的形式的使用,特别在序列出路
是深度学习领域的一个重大进展
是对神经网络常用工具与的重要补充
它将神经网络从纯粹的向量操作变为可以动态选择对哪些输入进行处理的架构
并可以将信息存储在可区别的关联存储器中
这种架构的一个关键特性是它可以有效地对不同类型的数据结构进行操作,比如集合和图
某一层的模块可以是哟昂soft attention来动态选择利用前一层的哪些向量来计算这一层的输出
这可以确保输出不受输入的顺序影响
也可以让网络学习不同输入之间的关系
transformer架构已成为许多应用中的主导
它对其许多曾“自注意力”模 块
一层中的每个模块用内积来计算其Q向量与该层中其他模块的K向量之间的匹配度
并归一化到总和为1
然后使用产生的标量数来形成由前一层中其他模块产生的K向量的凸组合
结果向量就成为下一计算阶段的模块的输入
模块可以是多头的,因此每个模块可以计算机个不同的K,Q,V向量
也就可以允许每个模块有几个不同的输入
子主题
子主题
子主题
而每个输入都能以不同的方式从前一阶段的模块中被选出
在此操作中,模块的顺序和数量无关紧要
因此可以对向量集合进行操作
而不是像传统神经网络那样对单个向量操作
例如
机器翻译系统在产生输出结构中的一个单词时
可以选择关注输入句子中对应的一组单词
而不受其在文本中的位置限制
虽然乘法门控(multiplicative gating)在坐标变换和RNN领域并不是什么新鲜想法
但它近期的一个变体让这种思想成为了主流
另一种理解的思路是
注意力机制使人们有可能通过适当挑选的模块动态地传递信息
并以潜在的新方式组合这些模块
以改善对训练集分布外数据的泛化性
深度学习之所以出色
因为它利用了一种特定形式的组合性
上一层中的特征能以多种不同的方式组合
在下一层中创造更多抽象的特征
Transformer显著地提升了性能
并为自然语言处理领域带来了革命性进展
现在工业也常规化地使用
这些系统都已子监督的方式进行预训练
任务是预测一段文中缺失的此
更让人惊讶的是
transformer已成功地被用于求解积分方程和微分方程
最近趋势
在卷积神经网络上使用transformer
以在图像上实现目标检测和定位的最优性能
tranformer 以可微分的方式执行后处理和基于对象的推理
使系统能够进行端对端的训练
无监督和自监督学习
监督学习虽然在大范围内的多种任务上取得了成功
但通常对人工标注数据有大量的需求
同样
当强化学习仅基于奖励时
它需要大量的交互
这些学习方法通常会产生智能用于特定任务的专门的系统
对于像低资源机器翻译,医学图像分析,自动驾驶,内容过滤这样的任务来说,减少学习任务所需的人工标注数量或与世界的交互以及提高在特定linguistic
在有监督学习中,一条数据的标注如果属于N个类别之一,那么平均最多传达log2N位信息
在无模型强化学习中,一个奖励同样仅传递少量信息
相比之下,音频,图像,视频都是高宽带模态,隐含大量有关世界结构的信息
这激发了一种预测或重建形式,叫做自监督学习
通过训练预测数据被遮挡或损坏的部分来“填补空白”
自监督学习在训练Transformer捕获单词或单词片段的上下文相关含义时非常有效
且对下游任务也非常有利
对比学习。
使用对比学习使表征一致。
变分自编码器(Variational auto-encoders)。
分自编码器 (VAE)是最近流行起来的一种自监督学习方法,由将图像映射到latent code空间的编码器以及从latent code生成图像的解码器组成。通过往编码器的输出中添加高斯噪声,限制latent code的信息容量。
深度学习的未来
1、有监督学习需要大量的有标签数据,而无模型强化学习需要进行太多次试验。而人类似乎只需要很少的经验就能以很好的性能泛化到其他任务。
2、当前的系统在不同数据分布上的鲁棒性不如人类。人类可以通过很少的例子快速适应分布中的变化。
3、当前的深度学习模型在感知任务和所谓的系统1任务方面最为成功。将深度学习应用于需要经过深思熟虑才能确定步骤序列的系统2任务则仍处于起步阶段。