导图社区 ChatGPT 服务器:深度拆解
1、GPT 模型需要什么样的算力? 2、GPT 模型需要什么样的服务器? 3、GPT 模型需要什么样的算力芯片? 4、美国先进算力芯片出口限制对 GPT 产业的影响? 5、AI 服务器产业链相关公司有哪些? 大家可以带着这写问题看本思维导图,一起认识ChatGPT 服务器。
编辑于2023-04-01 14:34:00 江苏省这是一篇关于职场高效沟通工具箱的思维导图,主要内容包括:1.PREP 模型:高效沟通的黄金法则,2.职场表达利器:SCQA 工具应用,3.STAR 模型:用结构化表达点亮职场沟通之路,4.FOSSA模型:开启高效沟通的新钥匙,5.职场必修课:用 STORY故事模型打造高效沟通力,6.乔哈里视窗:解锁高效沟通与深度自我认知的密钥。
这是一篇关于目标与计划管理:为工作指引方向的思维导图,主要内容包括:用SMART设定工作目标,如何分解工作目标,如何做好计划,用PDCA做好计划管理。
这是一篇关于高效复盘:将经验转化为能力(1堂课让你学会复盘)的思维导图,主要内容包括:1.复盘前的准备工作 2.复盘的流程和技巧3复盘常用工具。
社区模板帮助中心,点此进入>>
这是一篇关于职场高效沟通工具箱的思维导图,主要内容包括:1.PREP 模型:高效沟通的黄金法则,2.职场表达利器:SCQA 工具应用,3.STAR 模型:用结构化表达点亮职场沟通之路,4.FOSSA模型:开启高效沟通的新钥匙,5.职场必修课:用 STORY故事模型打造高效沟通力,6.乔哈里视窗:解锁高效沟通与深度自我认知的密钥。
这是一篇关于目标与计划管理:为工作指引方向的思维导图,主要内容包括:用SMART设定工作目标,如何分解工作目标,如何做好计划,用PDCA做好计划管理。
这是一篇关于高效复盘:将经验转化为能力(1堂课让你学会复盘)的思维导图,主要内容包括:1.复盘前的准备工作 2.复盘的流程和技巧3复盘常用工具。
ChatGPT 服务器:深度拆解
AI 服务器:ChatGPT 训练热潮有望带动 AI 服务器需求
ChatGPT:大模型+Transformer 架构,带动并行计算需求
大厂布局 ChatGPT 类似产品,或将带来底层算力需求
AI 模型对算力的需求主要体现在训练和推理两个层面
1)训练阶段:基于充裕的数据来调整和优化人工智能模型的参数,使模型的准确度达到预期。对于图像识别、语音识别与自然语言处理等领域的复杂问题,为了获得更准确的人工智能模型,训练阶段常常需要处理大量数据集、做反复的迭代计算,耗费巨大的运算量。
2)推理阶段:训练阶段结束以后,人工智能模型已经建立完毕,已可用于推理或预测待处理输入数据对应的输出(例如给定一张图片,识别该图片中的物体),此过程被称为推理阶段。推理阶段对单个任务的计算能力要求不如训练那么大,但是由于训练出来的模型会多次用于推理,因此推理运算的总计算量也相当可观
ChatGPT 算力需求场景
1)预训练:主要通过大量无标注的纯文本数据,训练模型基础语言能力,得到类似 GPT-1/2/3 这样的基础大模型;
2)Finetune:在完成预训练的大模型基础上,进行监督学习、强化学习、迁移学习等二次或多次训练,实现对模型参数量的优化调整;
3)日常运营:基于用户输入信息,加载模型参数进行推理计算,并实现最终结果的反馈输出。
预训练阶段:单次算力需求取决于模型参数量,最高可达 3640 PFlop/s-day
ChatGPT 基于 Transformer 架构,进行语言模型预训练
1)注意力机制层主要作用在于计算某个单词对于全部单词的权重(即 Attention),从而能够更好地去学习所有输入之间的关系,实现对文本内在关系的理解和更大规模的并行计算;
2)前馈神经网络提供了对数据信息的高效存储及检索;
3)掩码层在这一过程中帮助模型屏蔽位于计算位置右侧尚未出现的单词。因此,相较于前代深度学习架构 RNN,Transformer 架构可以实现更大规模的并行计算,大大提升了计算效率
单一大模型路线下,需要完成大规模参数计算
推理阶段:预计单月运营算力需求约 7034.7 PFlop/s-day
ChatGPT 近一月访问量为 8.89 亿次
预计日常运营单月所需算力约 7034.7 PFlop/s-day
Finetune 阶段:预计 ChatGPT 单月 Finetune 的算力需求至少为 1350.4PFlop/s-day
模型迭代带来 Finetune 算力需求
预计 ChatGPT 单月 Finetune 算力需求至少为 1350.4PFlop/s-day
ChatGPT 需要的服务器:AI 训练型服务器+AI 推理型服务器
随着计算场景扩展,算力硬件也在发生变化
在传统软件架构下,主要的模式都是 CS 模式,服务端大多是单机处理几千个轻量请求。而在边缘计算场景下,需要数万台服务器处理上亿个重负载请求。
边缘计算机本质上是用 CES 模式取代 CS 模式,当前的互联网 IT 架构已经从 CS 模式,逐步向 CDN 服务为核心的 CES 模式转变。
但当前的 CDN 模式比较大的局限性在于缺乏灵活性,不能解决边缘上非结构化数据存储和处理的需求,引入 Edge端(边缘端)就是为了解决 CS 模式下无法处理的业务。
而在 AI 训练场景下,计算量及数据类型的变化导致 C-E-S 又无法满足集中大算力需求,计算架构回归 C-S,并向高效率并行计算演变。
服务器作为算力硬件核心,面向不同计算场景分化演进
同一技术路线下,服务器面向数据处理需求持续迭代
1)通用服务器:传统通用服务器的发展与计算机架构发展同步,通过处理器的时钟频率、指令集并行度、核数等硬件指标的提升优化自身性能,发展较为缓慢。
2)云计算服务器:云计算的概念于 20 世纪 80 年代提出,仅 20 年后就有较为成熟的产品推出,如 VMware 的 VMware Workstation 和亚马逊 AWS 等。2010 年随着 OpenStack 开源,阿里云、华为云等项目相继布局,云计算行业快速走向成熟。
3)边缘计算服务器:边缘计算概念孵化于 2015 年,仅 2 年后就有诸如亚马逊 AWS Greengrass、谷歌 GMEC 等边缘计算平台产生,并在微软的带领下提前进入技术并购期。
4)AI 服务器:AI 服务器最早由思科在 2018 推出,专为人工智能、机器学习的工作服务而设计,硬件架构更加适合 AI 训练场景下的算力需求
云计算服务器:大规模数据处理需求下的商业模式变革
数据量激增带来大算力需求,云计算服务器应运而生
云计算服务器节约部分硬件成本,降低算力采购门槛
边缘服务器:高数据密度和带宽限制下保证低时延
边缘计算在云计算的基础上引入边缘层
边缘计算较云计算在实时性、低成本和安全性等方面有优势:
1)实时性
2)低带宽成本
3)安全性
AI 服务器:更适合深度学习等 AI 训练场景
AI 服务器采取 GPU 架构,相较 CPU 更适合进行大规模并行计算
深度学习主要进行矩阵向量计算,AI 服务器处理效率更高
AI 服务器分类方式有两种:
常见的 AI 服务器分为四路、八路、十六路,其中搭载 8 块 GPU 的八路 AI 服务器最常见
AI 服务器采用多芯片组合,算力硬件成本更高
ChatGPT 需要的芯片:CPU+GPU、FPGA、ASIC
ChatGPT 带动大模型训练热潮,AI 服务器需求有望放量
GPT 模型训练需要大算力支持,或将带来 AI 服务器建设需求
AI 大模型训练需求火热,智能算力规模增长有望带动 AI 服务器放量
国产厂商布局丰富产品矩阵,占据全球 AI 服务器市场领先地位
浪潮信息、联想、华为等国产厂商在全球 AI 服务器市场占据领先地位
浪潮信息:AI 服务器产品矩阵丰富,产品力获国际认可
华为:AI 服务器融合自研加速卡与英特尔 CPU
新华三 AI 服务器覆盖各训练负载要求,结合软件平台构建 AI 完整生态
GPU 算力芯片为核心组件,国产替代未来可期
拆解来看,AI 服务器主要成本包括算力芯片、内存、存储等
AI 服务器算力芯片以 GPU 为主
GPU 结构:计算单元+显存
1.计算单元底层架构:
显卡核心构成多样,不同核心专注不同任务
2、TOPS 和 TFLOPS 是常见算力衡量单位:
1)OPS:OPS(Operations Per Second)指每秒执行的操作次数,是整数运算的单位,常在 INT8、INT4 等计算精度下度量算力性能。其中 TOPS(Tera Operations Per Second) 代表处理器每秒钟可进行一万亿次(10^12)操作,类似的单位还有诸如 GOPS、MOPS, 均代表每秒的操作次数。
FLOPS:FLOPS(Floating-point Operations Per Second)指每秒所执行的浮点运算次数,常在单精度(FP32)、半精度(FP16)等计算精度下度量算力性能。TFLOPS(Tera Floating-point Operations Per Second)代表处理器每秒钟可进行一万亿次(10^12)浮点运算。虽然 TOPS 和 TFLOPS 数量级一样,但前者是衡量操作次数,后者是衡量浮点运算,TOPS 要结合数据类型精度(如 INT8,FP16 等)才能与 FLOPS 转换
3.显存位宽、带宽与容量
显存的主要指标包括位宽、带宽和容量
目前主流 AI GPU 芯片包括英伟达 H100、A100 以及 V100 等
先进算力芯片进口受限或为国产 AI 服务器的瓶颈之一
采用英伟达 A800 服务器或为当前可行替代方案
英伟达其他 AI GPU 芯片均不受出口限制影响。
国产 AI GPU 性能持续升级,国产替代未来可期
总结:从 ChatGPT 到 AI 服务器
1、GPT 模型需要什么样的算力?
即使用大量数据集,对模型做反复迭代计算,推理即利用模型对输入信息进行处理并给出结果。据 IDC 数据,2021 年中国人工智能服务器工作负载中,57.6%的负载用于推理,42.4%用于模型训练具体来看,算力需求场景包括预训练、Finetune 以及日常运营。根据我们的测算,GPT-3 175B 模型需要的预训练算力约 3640 PFlop/s-day、ChatGPT 单月运营需要的算力约 7034.7 PFlop/s-day、单月 Finetune 需要的算力至少为 1350.4 PFlop/s-day
2、GPT 模型需要什么样的服务器?
我们认为,服务器类型不断演化的动力来自:计算架构的变化。从服务器产业发展历程来看,随着计算架构从单机到 C-S、C-E-S,陆续演化出 PC、云计算、边缘计算等服务器类型。而在 AI 训练时代,C-S 架构的回归以及大规模并行计算需求,又带来 AI 服务器的扩张。对比传统服务器来看,AI 服务器由于采用 GPU 等加速卡,更加擅长向量、张量计算,对于AI 训练及推理场景的处理能力更强,且采用多芯片组合架构,单台服务器芯片成本也较高。
3、GPT 模型需要什么样的算力芯片?
GPT 模型的训练和推理计算主要由 AI 服务器完成,底层算力芯片主要包括 CPU、GPU、 FPGA、ASIC 等。常见的算力芯片组合,如 8x GPU+2x CPU、4x GPU+ 2x CPU、8x FPGA+1x CPU、4x FPGA+1x CPU 等。据 IDC,2022 年国内人工智能芯片市场中,GPU芯片占据主要市场份额,达 89.0%。目前海外主流 AI GPU 芯片包括英伟达 H100、A100以及 V100 等。
4、美国先进算力芯片出口限制对 GPT 产业的影响?
受美国先进算力芯片出口限制政策影响,目前国内只能采购性能低于 A100 的 AI GPU,如英伟达 A800 系列等。此外,英伟达 A 系列、T 系列性能更低的前代版本尚且不受影响。考虑到部分国产 AI GPU 如华为昇腾在 FP16 浮点计算性能上已经实现对英伟达 A100 的加速追赶,未来随着国产生态打磨,AI GPU 国产替代有望加速。追赶,未来随着国产生态打磨,AI GPU 国产替代有望加速。
5、AI 服务器产业链相关公司有哪些?
1)能够采购到海外高性能芯片的厂商:浪潮信息等;
2)采用海光/寒武纪芯片的厂商:中科曙光;
3)采用华为昇腾芯片的厂商:拓维信息等;
4)底层芯片供应商:海光信息、寒武纪、景嘉微等。
浪潮信息、景嘉微
风险提示
宏观经济波动
若宏观经济波动,产业变革及新技术的落地节奏或将受到影响,宏观经济波动还可能对 IT 投资产生负面影响,从而导致整体行业增长不及预期。
下游需求不及预期
若下游数字化需求不及预期,相关的数字化投入增长或慢于预期,致使行业增长不及预期。
算力需求测算与实际不符
目前 ChatGPT 所用模型相关数据披露较少,基于模型体量进行的算力需求测算若低于实际需求,可能导致 AI 服务器产业规模增速不及预期