导图社区 算力芯片(AI芯片)
对AI芯片主要架构、主要玩家、国内外对比等行业基本概况进行了初步梳理。算力芯片(AI芯片)作为人工智能技术的关键硬件之一,在推动人工智能产业发展方面发挥着重要作用。
编辑于2024-09-09 20:12:37GPT or大模型or 通用人工智能
产业链
算力
算力芯片:GPGPU、ASIC、存算一体芯片
重点考量参数:
对比:
外围芯片:DPU、CPU
光通信模块
IDC
其他
数据
模型算法、平台架构和工具
大模型
国内
国外
平台
工具
应用场景
主要玩家
国内
算力芯片:
数据应用:
模型算法:
国际
算力芯片:
数据应用:
模型算法:
部署面临的挑战
训练部署制约因素
算力资源
内存资源
并行性能
子主题
推理部署制约因素
子主题
子主题
算力芯片(AI芯片)
应用场景
云端、服务器、数据中心、算力中心
对算力要求高,包括存储容量、数据通信带宽等,对能耗的要求相对较低。但如果是绿色智算中心,总体能耗对应了电力消耗量。 主要对应AI训练和非时延敏感性的AI推理
数据中心、算力中心
服务器
子主题
边缘端:
对算力性能、低功耗、小型化、散热性能要求高。 一般针对中小规模参数模型的推理应用。时延敏感型的应用场景。
汽车
智驾ADAS/AD
座舱芯片
PC
手机
卫星
主要架构(实现手段)
GPU
ASIC:专用集成电路
CPU
NPU/DPU
FPGA
存算一体芯片
对比
计算精度和计算能力角度:GPU、ASIC和存算一体芯片更合适
内存容量角度:GPU、ASIC和存算一体芯片更合适
片间互联角度(片间互联线路数和带宽):GPU和存算一体芯片更合适
开发和部署成本角度:GPU和ASIC较存算一体芯片更优,存算一体芯片的开发和部署成本很高
国内主要玩家
第一梯队:华为昇腾910、910B、910C,市场份额预计70%-80%
针对国内国产化市场份额约70%-80%,其中to G端的AIDC占据主要部分,预计占国内to G端AIDC市场份额的80%以上。
AI训练和推理
to G:AIDC
针对政府端的AIDC项目,除了将相关项目外包给供应商,还要求供应商进一步赋能政府,包括AI算力的包销服务(算力租赁端的兜底),这要求供应商生态的话语权和带动效应。 适合于第一二梯队的厂商。 AIDC端的训练和推理芯片配置大致为4:1,即4/5的算力芯片为训练芯片,1/5的芯片为推理芯片。 一般训练芯片也可以被用作推理。
to B:ISV/垂直应用大厂/云服务商
落地行业场景:运营商、金融、互联网、交通、能源等?影视娱乐是否有
第二梯队:寒武纪、海光(深算一号)、地平线
寒武纪
场景覆盖AI训练和推理,发展思路由云端+边缘端聚焦到云端场景的转变
这可能会损失很大的一块市场,但由于其流片产量的限制(目前主要以来台积电)似乎短期必须调整。 寒武纪的营收中超6成以来与to G端的AIDC项目(训练+推理芯片)。 从370(第三代AIDC训练和推理芯片)-590(第四代训练芯片)。
to G端:AIDC 思元370训练和推理,及590训练芯片,整体占营收超过6成
to B端:AIDC 590训练,受限于生态和适配的不完善
海光
场景覆盖训练和推理,目前主要还是面向toG端的应用
to G端:采用CPU+GPU+整机推动落地,竞争里不及华为,但较优于寒武纪
to B端:不及华为及寒武纪
地平线:智能驾驶和智能物联网算力芯片
智能驾驶:征程系列,征程2、征程3、征程5,当前在研发征程6
物联网芯片:旭日2和旭日3
第三梯队:燧原、百度昆仑芯(昆仑二代)、壁仞科技、天数智芯、摩尔线程、沐曦(GPGPU)、登临和瀚博、阿里巴巴的GPGPU
燧原、百度昆仑芯和天数智芯要较摩尔、沐曦和登临、瀚博优势明显。
训练芯片:燧原、天数智芯
推理芯片:昆仑芯、登临等
第四梯队:海飞科、墨芯、芯砺智能、芯原股份、北极雄芯
芯砺智能:车载高性能大算力芯片,车规级ASIL-D功能安全chiplet D2D互联IP流片
芯原股份:Vivante图形处理器(GPU)IP/图像信号处理器(ISP)IP
北极雄芯:自研NPU,应用于AI加速、智能驾驶及座舱等云边端高性能计算领域;2023年8月完成超亿元融资
芯耀辉:车规认证接口IP厂商
行歌科技(寒武纪):智能驾驶芯片——SD5223和SD5226,前者是L2+自动驾驶行泊一体芯片;后者是L4高阶自动驾驶多域融合平台SoC
大规模部署面临的共性问题:软件工具的开发适配及并行化配置,高速传输问题
国内算力芯片存在的问题
一看算力芯片标准算力与英伟达主流成品和最新产品的代差;二是看其并行化和线性扩展能力
用户从原来的更多考虑技术和经济成本角度向更多考虑产业链供应链安全角度选择新的可替代英伟达的解决方案
国产算力芯片设计过程中,缺乏片间和系统间成熟高效的互联解决方案,仅能提供单机或单卡的解决方案而无法打通片间并行互联和系统间并行可拓展能力将严重制约大模型部署的效率和成本
国内算力芯片对应的软件生态与国外差距较大,且开发框架的标准化能力不足,产品的可移植性、易用性对于用户的友好度不够
芯片研发生产角度,设计和制程工艺受限;核心IP能力不足,包括内存HBM及高速互联解决方案等,目前IP严重依赖于国外;算力芯片的设计缺乏对类似Transformer架构的专门加速功能模块,与英伟达产品差距较大。
子主题
综合看
计算能力、片上内存及读取速率
成熟、高效的片间互联解决方案
芯片设计联合网络、存储,实现整体性能的一致性降低整体计算延迟
完善的软件栈,支持模型和数据的并行
芯片的先进制程和先进封装工艺
国际厂商
英伟达
V100
A100/A800
H100/H800
H200
AMD
MI250
MI300/MI300X
intel
Habana
子主题
联发科
市场规模
国产替代:仅考虑to G端,2024年预计国产训练芯片市场空间约100亿元,国产训练+推理芯片预计120亿元左右。
全部市场空间
to B端的主要仍然采用海外AI芯片,包括英伟达、高通、英特尔、AMD及联发科等
领域包括智驾、座舱、AI PC、AI phone、AR/VR/MR等
英伟达算力芯片GeForce RTX 40 SUPER系列显卡参数
参数说明
流处理器(SM,Streaming Multiprocessors):NVIDIA GPU架构中的一个重要组成部分。每个SM包含一组CUDA核心、寄存器文件、共享内存和其他资源,它们负责执行并行计算任务。SM的数量和特性会因不同的GPU架构而异,它们对于并行计算和图形处理非常重要。SM的数量和性能通常用于描述NVIDIA GPU的性能和计算能力.
CUDA Cores:用于通用和并行计算任务。用于执行通用计算任务的处理核心, 它们负责处理图形渲染、物理模拟、深度学习等各种计算工作负载。它们是GPU中最基本的计算单元,用于并行处理大规模数据和计算任务。
RT Cores:用于光线追踪渲染。专门设计用于光线追踪和实时光线追踪渲染。光线追踪是一种计算密集型的图形渲染技术,用于模拟光线在场景中的传播和交互,从而产生高质量的视觉效果。
Tensor Cores:用于深度学习计算。专门用于深度学习和人工智能计算的加速器。 它们能够高效地执行矩阵乘法和深度神经网络中的张量运算, 从而加速深度学习训练和推理任务。
基础时钟是GPU的默认工作频率, 而Boost时钟是GPU在需要更高性 能时可以提升到的最高频率。这 两个时钟频率对于评估GPU的性 能和功耗管理非常重要。
Boost时钟则是GPU在需要更多性能 时可以自动提升到的最高频率。当 GPU温度和功耗允许的情况下,Boost 时钟可以使GPU在需要更高性能时提 供更快的运算速度。
存储器介面/速率(Memory Interface/Speed):存储器介面描述了GPU与显存之间的物理连接接口,通常以位数(如256位、384位)表示。而存储器速率则表示GPU与显存之间的数据传输速率,通常以MHz或Gbps为单位。存储器介面和速率共同决定了GPU与显存之间的通信带宽,对于提高GPU的图形渲染和计算性能非常重要。
存储器频宽(Memory Bandwidth):存储器频宽是指GPU与其显存(显存是GPU用于存储图形数据和其他计算数据的内存)之间的数据传输速率。它通常以GB/s(gigabytes per second)为单位,表示GPU能够从显存中读取或写入数据的速度。存储器频宽越高,GPU能够更快地进行数据传输,从而提高图形渲染和计算性能。
可以根据存储器介面和速率参数计算得到存储器频宽。比如,对于RTX4080SUPER,其存储器频宽 为736GB/s=23Gbitps*256bit/(8bits/Byte)=736GB/s
存储器频宽和存储器介面/速率是评估GPU存储器性能的重要指标,它们直接影响着GPU的数据传输速度和性能表现
浮动主题
中心主题
主题
主题
主题
中心主题
主题
主题
主题
中心主题
主题
主题
主题