导图社区 FAQ-CNN_面向量化卷积神经网络的嵌入式
FAQ-CNN_面向量化卷积神经网络的嵌入式,实验结果表明,FAQ-CNN能够支持相关研究人员快速构建量化 CNN加速器,对深度学习及异构计算等领域具有很好的指导意义和研究价值。
《谏太宗十思疏》全篇以“思国之安者,必积其德义”为中心展开论述。先从正反两方面进行论述,提出为君必须“居安思危,戒奢以俭”的结论。然后提醒太宗,守成之君易失人心
《建筑消防设施的维护管理》GB25201-2010,内容有值班、巡查、检测、维修、保养、建档,快来看看吧!
《冀中的地道战》这篇课文记叙了在抗日战争中,冀中地道战的产生、作用,地道的结构特点,歌颂了我国人民在对敌斗争中表现出来的顽强斗志和无穷无尽的智慧
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
FAQ-CNN:面向量化卷积神经网络的嵌入式 FPGA 加速框架( 计算机研究与发展)
术语
可编程逻辑阵列 FPGA
( field programable gate array)
FAQ-CNN 框架设计
1)FAQ-CNN架构
① 量化组件
模块 op
量化算法所涉及的乘加(multiply accumulate, MAC)操作
模块 quantization
量化算法的数值映射
② 数据引擎
为了解决低位宽数据组织成高位宽数据的复杂性。设计了支持并行读写的数据引擎,实现单时钟周期内多个数据的并行读写,缓解数据传输与数据计算间速率不匹配的矛盾
包含编码器和解码器两个模块
③ 片上缓存
存储输入特征图、输出特征图及模型权重
④ 指令单元
负责按照预先定义的指令规则解
析模型配置参数
指令:输入通道、输出通道、输入特征图高度、输入特征图宽度、卷积核大小、卷积步长、卷积填充和计算类型.
①卷积层
②池化层 ③激活层 ④全连接层
⑤ 计算引擎
两个计算内核分别处理:卷积层计算密集型 & 全连接层通信密集型
2)数据并行计算:张量数据加载到片上存储器后
循环展开
FAQ-CNN套循环结构
卷积层
4个外层循环处理单个通道的卷积核和特征图
tm & tn 代表输出和输入特征图在通道维度上的切片因子
全连接层
输入和输出均是 1 维张量
tm和 tn分别表示输出和输入张量模长的切片因子
运算规则
上图中的op模块定义运算规则,提供了两种不同粒度的op运算
算子融合
FAQ-CNN将激活与池化操作直接融合到卷积层或全连接层的后处理阶段
3)通信带宽优化:充分利用数据传输带宽资源
分级编码&位宽无关编码
① 两种编码方式:
a)FAQ-CNN采用位宽无关编码方式处理权重数据; b)采用分级编码处理输入特征图和输出特征图数据
② 并行解码:极大提升数据交换性能
③ 猝发式传输:由图可以看出带宽峰值会随着位宽的增加和猝发传输长度的增加而提升,FAQ-CNN通过提升猝发传输长度来利用猝发传输的优势进一步提高宽字传输效率.
④ 传输频率:片外存储器的工作频率设定为 FPGA片上存储器 I / O端口频率的 2倍甚至更高,以支持快速读写
FAQ-CNN 框架实现
量化方法适配
片上资源模型构建
设计空间探索
实验评估
实验设置
软件环境
Vitis2020
C++
硬件环境
Xilinx ZCU102 SoC FPGA
开发板
FPGA的运行频率设定为200MHz
评估指标
1)数据传输效率
2)片上资源利用率
3)每秒运算次数
① 编解码效率增益
② MAC操作资源消耗
③ 卷积层整体开销与性能对比分析
④ 资源配置优化与性能对比
FAQ-CNN与相关量化加速器性能对比
条件:Caffeine 和 AccELB加速器时钟频率均为200MHz
结论:在低位宽8b数据配置下,FAQ-CNN充分利用 DSP资源和 LUT逻辑资源实现 1229GOPS的计算性能,和采用 16b的Caffeine相比,峰值性能提升至 3.6倍
FAQ-CNN和 Caffeine处理卷积层的性能对比
实验结果表明,FAQ-CNN能够支持相关研究人员快速构建量化 CNN加速器,对深度学习及异构计算等领域具有很好的指导意义和研究价值