导图社区 深度学习处理器架构
深度学习处理器架构包括多核学习和单核学习,导图详细的阐述了两者所包含的内容。适合知识点整理的小伙伴。
量化设计与分析基础包括计算机的分类,计算机体系结构的定义,技术趋势,集成电路中的功率和能耗,成本趋势,可信任度,性能的测量、报告和汇总,计算机设计的量化的原理。
从三皇五帝到夏朝中间时期,各个人物之间的关系图。燧人氏、伏羲氏、神农氏、女娲、炎帝、黄帝、颛顼、帝喾、尧、舜、禹。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
深度学习处理器架构
多核
总体架构
Chip层级
外部存储控制器
外设通信模块
片上互联模块
同步模块
4个DLP-C
Cluster层级
4个DLP-S
1个存储核
Core层级
共享存储模块(SMEM)
存放共享数据
广播总线(broadcast bus)
解决DLP-C内部的DLP-S通信
Cluster直接内存访问模块(CDMA)
解决DLP-C之间的数据传输
全局直接内存访问模块(GDMA)
解决DLP-C与外部DRAM之间的数据传输
Cluster架构
广播总线
CDMA
GDMA
多核同步模型
互联架构
核间互联的拓扑结构
环形、网状、Torus、……
设计目标
所有的核之间对称,不同的核到同一个核的延时相同
核间的互联通路尽量稠密,减少单个通路的负载,降低访问延时
互联方式
总线互联
片上网络
DLP-C之间的互联
单核
控制模块
IFU
IDU
运算模块
VFU
MFU
存储模块
DMA
NRAM
WRAM
取指单元(IFU)
地址生成器(AGU)
产生程序计数器(PC)
指令高速缓存(ICache)
缓存从DRAM中加载的指令,加快IFU取指令的速度
指令回填单元(RB)
接收来自ICache的指令预取请求,向DMA发送指令回填请求
指令队列(IQ)
缓存PC和指令,解耦IFU和IDU的流水线
指令译码单元(IDU)
译码单元(Decoder)
接收来自IFU的指令并进行译码,再根据指令类型发送给对应的指令发射队列
指令发射队列(Issue Queue)
3个队列分别缓存3种不同类型的指令
整体看指令乱序发射,但在每个指令发射队列内部是顺序发射、顺序执行的
需要添加同步指令来解决指令依赖产生的冲突
算术逻辑单元(ALU)
完成标量运算和分支跳转等功能
向量运算单元(VFU)
向量流水单元
指令超车问题
矩阵运算单元(MFU)
使用低位宽运算减少MFU的面积和能耗
支持对权重为0的权重或神经元进行稀疏处理,减少能耗
存储单元
存储管理
使用虚拟地址实现内部SRAM的高速访问和外部DRAM的间接访问
存储管理单元中存储了虚实地址映射表,以完成DLP-S对DRAM访问时的虚实地址映射
降低访问延迟
TLB缓存常用页表
LLC缓存经常访问的DRAM数据