导图社区 FAQ-CNN_面向量化卷积神经网络的嵌入式

FAQ-CNN_面向量化卷积神经网络的嵌入式

FAQ-CNN_面向量化卷积神经网络的嵌入式，实验结果表明，FAQ-CNN能够支持相关研究人员快速构建量化 CNN加速器，对深度学习及异构计算等领域具有很好的指导意义和研究价值。

编辑于2023-04-26 21:37:01 福建省

FAQ-CNN
FP GA

EDCsbyeQ

他的近期作品查看更多>>

FAQ-CNN_面向量化卷积神经网络的嵌入式

社区模板帮助中心，点此进入>>

EDCsbyeQ

他的近期作品查看更多>>

相似推荐
大纲

互联网9大思维
- 38.0k
- 969
- 2.4k
- 402
- 0
MindMaster
组织架构-单商户商城webAPP 思维导图。
- 17.2k
- 3
- 186
- 9
- 1
Kacyun
域控上线
- 3.4k
- 169
- 11
- 4
- 0
jackrao
python思维导图
- 8.1k
- 550
- 242
- 7
- 0
(*^▽^*)
css
- 3.0k
- 1
- 43
- 3
- 0
A张舫
CSS
- 5.3k
- 271
- 189
- 33
- 0
journey
计算机操作系统思维导图
- 6.7k
- 351
- 208
- 16
- 0
journey
计算机组成原理
- 3.2k
- 98
- 70
- 8
- 0
journey
IMX6UL(A7)
- 1.9k
- 41
- 5
- 0
- 0
Handler XU
考试学情分析系统
- 2.6k
- 51
- 10
- 1
- 0
蒋龙

FAQ-CNN:面向量化卷积神经网络的嵌入式 FPGA 加速框架（计算机研究与发展）

术语

可编程逻辑阵列 FPGA

（ field programable gate array）

FAQ-CNN 框架设计

1）FAQ-CNN架构

① 量化组件

模块 op

量化算法所涉及的乘加(multiply accumulate, MAC)操作

模块 quantization

量化算法的数值映射

② 数据引擎

为了解决低位宽数据组织成高位宽数据的复杂性。设计了支持并行读写的数据引擎，实现单时钟周期内多个数据的并行读写，缓解数据传输与数据计算间速率不匹配的矛盾

包含编码器和解码器两个模块

③ 片上缓存

存储输入特征图、输出特征图及模型权重

④ 指令单元

负责按照预先定义的指令规则解

析模型配置参数

指令：输入通道、输出通道、输入特征图高度、输入特征图宽度、卷积核大小、卷积步长、卷积填充和计算类型.

①卷积层

②池化层 ③激活层 ④全连接层

⑤ 计算引擎

两个计算内核分别处理：卷积层计算密集型 & 全连接层通信密集型

2）数据并行计算：张量数据加载到片上存储器后

循环展开

FAQ-CNN套循环结构

卷积层

4个外层循环处理单个通道的卷积核和特征图

tm & tn 代表输出和输入特征图在通道维度上的切片因子

全连接层

输入和输出均是 1 维张量

tm和 tn分别表示输出和输入张量模长的切片因子

运算规则

上图中的op模块定义运算规则，提供了两种不同粒度的op运算

算子融合

FAQ-CNN将激活与池化操作直接融合到卷积层或全连接层的后处理阶段

3）通信带宽优化：充分利用数据传输带宽资源

分级编码&位宽无关编码

① 两种编码方式：

a）FAQ-CNN采用位宽无关编码方式处理权重数据； b）采用分级编码处理输入特征图和输出特征图数据

② 并行解码：极大提升数据交换性能

③ 猝发式传输：由图可以看出带宽峰值会随着位宽的增加和猝发传输长度的增加而提升，FAQ-CNN通过提升猝发传输长度来利用猝发传输的优势进一步提高宽字传输效率.

④ 传输频率：片外存储器的工作频率设定为 FPGA片上存储器 I / O端口频率的 2倍甚至更高，以支持快速读写

FAQ-CNN 框架实现

量化方法适配

片上资源模型构建

设计空间探索

实验评估

实验设置

软件环境

Vitis2020

C++

硬件环境

Xilinx ZCU102 SoC FPGA

开发板

FPGA的运行频率设定为200MHz

评估指标

1）数据传输效率

2）片上资源利用率

3）每秒运算次数

① 编解码效率增益

② MAC操作资源消耗

③ 卷积层整体开销与性能对比分析

④ 资源配置优化与性能对比

FAQ-CNN与相关量化加速器性能对比

条件：Caffeine 和 AccELB加速器时钟频率均为200MHz

结论：在低位宽8b数据配置下，FAQ-CNN充分利用 DSP资源和 LUT逻辑资源实现 1229GOPS的计算性能，和采用 16b的Caffeine相比，峰值性能提升至 3.6倍

FAQ-CNN和 Caffeine处理卷积层的性能对比

实验结果表明，FAQ-CNN能够支持相关研究人员快速构建量化 CNN加速器，对深度学习及异构计算等领域具有很好的指导意义和研究价值