导图社区 AlexNet论文大纲
AlexNet论文的写作思路思维导图。
社区模板帮助中心,点此进入>>
七夕活动策划
南北粽子
绘本阅读理念
创作工具思维导图
快速阅读核心技巧
自媒体教学笔记
茶文化旅游
演讲活动策划方案
2010年管综:学者追求真理
《老年社区服务》项目单思维导图
AlexNet
1 Introduction
目前的图像识别方法
为了提高性能
深度学习三驾马车
大规模数据
算力
模型算法,调参
为什么需要大规模数据
目前的现状
现在的数据集都很小
小数据集上可以刷分刷到很高
但现实世界很复杂,为了识别更多的,所以需要大规模数据
小数据集的缺点大家已经认识到了,但现在才有可能收集大的数据集LabelMe\ImageNet
为什么需要模型算法
大规模数据推动算法需求
大规模数据需要更大的学习容量
不是所有数据集都可以像ImageNet那么大,我们需要模型有许多的先验知识来弥补数据量没那么多的缺憾
CNN被认为是适合的[参考文献]
为什么CNN被认为是适合的
CNN的容量可以通过网络的深度和channel的个数而改变
CNN对图像有一个平稳性统计和局部像素依赖性假设????这个地方没有太看懂,但是大体能理解啥意思
相对于前馈神经网络基本相同大小的层,CNN可以用更少的连接和参数,所以CNN更容易训练(这里指的是CNN局部连接、权值共享、下采样)
文中提到他们的理论最优性能有一点点差,这个我没太看懂?????
为什么需要算力
尽管CNN局部连接等特性这么好,但用在大规模高分辨率图像上任然太昂贵了
庆幸的是,现在的GPU支持二维卷积的高度优化实现
这篇文章的主要贡献:
用了啥数据集,达到了什么性能
双GPU模型并行实现
所有代码已经公开(网址)
提升性能,加快训练速度的技巧Section 3
防止过拟合的技巧Section4
网络层数的重要性
目前网络的容量和训练时间情况及机器配置
2 The Dataset
数据集的简单介绍
图片数量
是否标注
分辨率
类别数目
采集方式
采集时间
其他-子数据集及其情况
子数据集的介绍
简单介绍了这个数据集
说明为什么用这个数据集
引出后面的也在另一个子数据集上实验过,结果在Section 6
引出评价标准
top-1
top-5
对数据集的处理
下采样-256*256
原因
ImageNet数据集上图片分辨率不一样
模型需要输入维度一致的图像
方法
裁剪,从中间裁剪
减去训练集中每个像素的均值????这咋减去的,每张图片每个像素都减去吗?????
结果
So we trained our network on the (centered) raw RGB values of the pixels
3 The Architecture
简单介绍包含几个层,引出下面要介绍的结构中的创新点
3.1 ReLU(修正线性单元)非线性激活函数
常用做法
tanh、softmax
优点
从梯度下降角度看,饱和非线性激活函数比不饱和线性激活函数慢
实验证实(附图)
图的简单说明,点出创新点,不必非得用饱和非线性激活函数
其他人做过的类似的尝试
列举并说明
3.2 Training on Multiple GPUs多GPU并行
GTX 580 GPU 3G容量限制
由反向传播原理,显存中不仅存储模型参数,还需要存储正向传播时每一层整个batch的中间结果 batch size 越大,占显存越厉害
现在的GPU支持并行,且两个GPU可以直接读写对方的显存,不需要通过内存
每个GPU放一半的神经元
只在某些固定的层两GPU相互通信
举例说明
Choosing the pattern of connectivity is a problem for cross-validation, but this allows us to precisely tune the amount of communication until it is an acceptable fraction of the amount of computation.
top-1 和top-5错误率降低
训练时间更快
3.3 Local Response Normalization LRN局部对比度归一化
3.4 Overlapping Pooling重叠池化
池化层的作用
传统池化层做法
举例子说明
s(步长)、z(池化窗口)
s=z传统池化
s<z重叠池化
重叠池化的效果
top-1和top-5错误率降低
有重叠池化的模型更不容易过拟合
3.5 Overall Architecture
4 Reducing Overfitting
介绍模型参数量
6千万个参数
存储1000个类需要10bit
2^10=1024
引出????这个地方没有太看懂怎么引出下面的
4.1 Data Augmentation
最常见最常用的数据增强方式列举,引出我们使用的不同的形式
人为扩充,标签不变????这个地方我没看引用的那篇论文,不知道这个是怎么扩充的
两种数据增强方式
计算量小
扩充后的数据不需要存储到硬盘
GPU上训练一批图片,CPU上生成一批图片。“厨师炒上一盘菜的时候,下一盘菜的原料已经准备好”
A 平移/水平翻转
训练集
在原来256的图像上平移裁剪224*224,水平翻转后的也是,(256-224)*(256-224)*2=2048
图像高度相关
同时提出了这样做的目的
降低过拟合
点明其他的一些操作
减小层数
测试集
测试集上取四个角和中间的224*224,水平翻转的也是,所以共10,在这10个上做softmax,然后求平均决定预测的结果
B 颜色变换