导图社区 Nvidia GPU互联技术全景图
本文详细介绍了Nvidia GPU互联技术和产品,非常有收藏价值!感兴趣的小伙伴可以收藏一下
编辑于2024-05-09 17:27:11本合集包含10篇项目管理精品文章合集,包括:PMO战略管理、PMO如何管理项目经理工作、PMO如何管理危机项目、项目团队行动指南、用看板管理大型项目、项目集管理、项目进度管理、如何项目复盘、IPD流程管理、项目经理面试准备。非常具有收藏价值。
本合集包含一篇精品文章AIGC介绍和四款阿里云AI产品介绍。
本合集详细介绍了腾讯云计算产品,包括:云服务器CVM、批量计算、高性能应用服务、Batch、高性能计算平台、高性能计算集群、专用宿主机、GPU云服务器、裸金属服务器、清凉应用服务器。非常具有收藏价值。
本人在准备CISSP考试中自己总结的复习习题、各种模拟题中的重点、难点。本文内容除了书中内容意外还有很多从网上查找的补充内容,非常具有复习价值!
本人在准备CISSP考试期间找到的精品模拟题,非常有价值。通过参与这套模拟题的练习,考生不仅能够熟悉CISSP考试的题型与难度,还能够查漏补缺,强化薄弱环节,为正式考试做好充分准备。预祝一位考生都能够在CISSP认证考试中取得优异成绩。
本人在准备CISSP考试期间找到的精品模拟题,非常有价值。通过参与这套模拟题的练习,考生不仅能够熟悉CISSP考试的题型与难度,还能够查漏补缺,强化薄弱环节,为正式考试做好充分准备。预祝一位考生都能够在CISSP认证考试中取得优异成绩。
社区模板帮助中心,点此进入>>
本合集包含10篇项目管理精品文章合集,包括:PMO战略管理、PMO如何管理项目经理工作、PMO如何管理危机项目、项目团队行动指南、用看板管理大型项目、项目集管理、项目进度管理、如何项目复盘、IPD流程管理、项目经理面试准备。非常具有收藏价值。
本合集包含一篇精品文章AIGC介绍和四款阿里云AI产品介绍。
本合集详细介绍了腾讯云计算产品,包括:云服务器CVM、批量计算、高性能应用服务、Batch、高性能计算平台、高性能计算集群、专用宿主机、GPU云服务器、裸金属服务器、清凉应用服务器。非常具有收藏价值。
本人在准备CISSP考试中自己总结的复习习题、各种模拟题中的重点、难点。本文内容除了书中内容意外还有很多从网上查找的补充内容,非常具有复习价值!
本人在准备CISSP考试期间找到的精品模拟题,非常有价值。通过参与这套模拟题的练习,考生不仅能够熟悉CISSP考试的题型与难度,还能够查漏补缺,强化薄弱环节,为正式考试做好充分准备。预祝一位考生都能够在CISSP认证考试中取得优异成绩。
本人在准备CISSP考试期间找到的精品模拟题,非常有价值。通过参与这套模拟题的练习,考生不仅能够熟悉CISSP考试的题型与难度,还能够查漏补缺,强化薄弱环节,为正式考试做好充分准备。预祝一位考生都能够在CISSP认证考试中取得优异成绩。
Nvidia GPU互联技术全景图
GPU通信基础
GPUDirect
GPUDirect是一系列技术,它是Magnum IO的一部分,它能增强GPU的数据移动和访问。使用GPUDirect可以让网络适配器和存储驱动直接读/写GPU显存,而减少不必要的系统内存拷贝。具体包括:
GPUDirect Storage
GPUDirect RDMA(Remote Direct Memory Access)
GPUDirect P2P
GPUDirect for Video
GPUDirect Storage
对AI和HPC应用而言,随着数据规模的不断扩大,数据加载时间对系统性能影响越发显著。随着GPU计算速度的快速提升,系统I/O(数据从存储读取到GPU显存)已经成为系统瓶颈。
GPUDirect Storage提供本地存储(NVMe)/远程存储(NVMe over Fabric)与GPU显存的直接通路,它可以减少不必要的系统内存拷贝(通过bounce buffer)。它可应用网卡NIC和存储系统附近的DMA引擎,直接向GPU显存写入/读取数据。
GPUDirect RDMA
RDMA可使外围PCIe设备直接访问GPU显存。GPUDirect RDMA被设计用来支持GPU间快速跨机通信。它能减轻CPU负载,同时也能减少不必要的通过系统内存进行的数据拷贝。
GPUDirect RDMA在CUDA Toolkit中提供支持。您可联系网络供应商下载相关驱动,来使用RDMA功能。它对Tesla and Quadro GPU都是可用的。
GPUDirect P2P
GPUDirect P2P支持GPU之间通过memory fabric(PCIe或NVLink)直接进行数据拷贝。CUDA driver原生支持P2P技术,开发者可使用最新的CUDA Toolkit和driver来实现GPU间直接通信(一般用于机内通信)。
GPUDirect for Video
GPUDirect for Video提供一个服务于frame-based的通过优化的流水线功能。设备包括:frame grabbers、video switchers、HD-SDI capture、CameraLink device,它可以把视频帧高效地向GPU显内中写入/读出。
过去处理视频的第三方硬件与GPU交互时,会引入不必要的延迟,如右图左边所示。有了GPUDirect for Video技术,I/O设备和GPU可达到很好的同步(两个设备driver间拷贝数据),同时能减少CPU的负载。GPUDirect for Video由第三方公司的SDK提供,开发者对视频流进/出GPU(通过OpenGL, DirectX or CUDA在子帧的传输过程 )有充分的控制能力
机内通信
基于PCIe通信
在单机内两个GPU通信最原始的方法需要进行两次数据拷贝,如图7所示。首先,数据通过CPU和PCIe总线从源GPU拷贝到host-pinned共享内存。然后通过CPU和PCIe总线从host-pinned共享内存拷贝到目标GPU。整个过程 进行了两次数据拷贝,更别提对CPU和系统内存的占用了
当支持GPUDirect P2P技术时,将数据从源GPU拷贝到目标GPU不需要系统内存缓存中间数据。如果两个GPU连接到同一PCIe总线时,GPUDirect P2P允许每个GPU直接访问自己与对方的GPU显存,而不用通过CPU辅助。此方法较前述原始方法,在执行相同任务时数据拷贝动作减少一半。
NVLink+NVSwitch
NVLink已经从第一代发展到了第四代,提供的两个GPU之间的双向互联带宽分别是 160 GB/s、300 GB/s、600 GB/、900 GB/s [1, 3]。当然,对于中国定制版的A800和H800,两个GPU之间的NVLink双向带宽是 400 GB/s
NVLink
上图DGX-1的系统拓扑图,可以看到GPU与CPU是通过PCIe总线连接的,GPUDirect P2P采用NVLink进行互联(整体叫做混合立方网格拓扑),GPUDirect RDMA中GPU和网络接口卡NIC用PCIe总线互连。NVLink至今已发展到第四代。
NVSwitch
为了解决混合立方网格拓扑结构的问题,Nvidia在GTC 2018发布了NVSwitch。类似于PCIe使用PCIe Switch用于拓扑的扩展,Nvidia使用NVSwitch实现了NVLink的全连接。NVSwitch作为节点交换架构,支持单节点中16个GPU全互联,并且支持8对GPU同时通信。整体来看,这16个全互联的GPU相当于一台超级计算机。更多使用NVSwitch实现GPU全互联的案例可以参考下图。
标准的DGX A100由8块A100,每块有12根NVLink(第三代)连接,然后通过6个NVSwitch(第二代)进行互联。理论上,可以把DGX A100扩展成支持16个A100+16个NVSwitch的超级计算机。实际上这样的扩展非常强劲,我们只需要其部分能力就能在性能和容量上实现跳跃提升,相较标准DGX A100而言。
NVSwitch目前已发展到第三代,具体的技术演进路线及每一代产品的参数如下所示:
跨机通信
RDMA通信
如果涉及GPU的跨机通信,最原始的方法(不支持RDMA)需要借助系统内存才能完成数据传输,具体有5个步骤:
1. 在源节点中把数据从源GPU拷贝到host-pinned系统内存中。
2. 在源节点中把数据从host-pinned系统内存拷贝到网卡驱动缓冲区
3. 通过网络传输把数据从源节点传送到目标节点的网卡驱动缓冲区
4. 在目标节点将数据从网卡驱动缓冲区传送到host-pinned系统内存
5. 在目标节点通过PCIe总线将数据从host-pinned系统内存拷贝到目标GPU显存
如果有GPUDirect RDMA加持,上述5个步骤可简化至一步完成。该技术可减少在host-pinned系统内存中的中间数据拷贝,可极大提升通信效率。
说完RDMA的工作原理后,我们来看看RDMA的三种具体实现方式
InfiniBand是最早实现的RDMA协议,广泛应用于高性能计算中。但是IB和传统TCP/IP网络差别较大,需要专用硬件设备(比如Mellanox网卡),价格高昂。因此又衍生出更实惠的和以太网融合的iWARP和RoCE方案。
RoCE(RDMA over Converged Ethernet)是一种允许通过以太网进行 RDMA 的网络协议。RoCE v1是一种链路层协议,允许在同一个广播域下的任意两台主机直接访问;RoCE v2基于UDP层协议,实现了路由功能,RoCE v2针对RoCE v1进行了一些改进,如引入IP解决扩展性问题,可以跨二层组网等[18]。
iWARP允许在TCP上执行RDMA的网络协议。在大型组网的情况下,iWARP的大量TCP连接会占用大量的额外内存资源,对系统规格要求较高。
NVSwitch通信
NVLink和NVSwitch的组合,不仅可用于机内通信,也可应用于跨机通信。我们之前看到NVSwitch连接多个NVLink可以提供单节点内的GPU全连接。现在通过在服务器外部增加第二层NVLink Switch就可把多达256个GPU互联在一起,这个规模的集群可用来训练万亿参数的大模型。
Nvidia明星产品
Magnum IO
Nvidia Magnum IO是数据中心IO的并行化、智能化架构,它是IO的加速平台[23]。它可以最大化很多重要应用的存储、网络、多节点和多GPU通信性能。Nvidia Magnum IO利用存储IO、网络IO、在网计算和IO管理简化和加速数据移动、访问、多GPU和多节点管理。Magnum IO支持Nvidia CUDA-X库,同时能利用一系列Nvidia GPU和Nvidia网络硬件拓扑实现高吞吐和低延迟。
DGX
DGX是一个完整的超级计算机,它是一套完整的人工智能解决方案,包括硬件设备、软件工具和优化,具有很高的集成度和易用性,适用于企业和研究机构。DGX的系列产品有:
DGX-1 [28]
DGX-2 [29]
DGX A100 [30]
DGX H100 [31]
DGX GH200 [32]
DGX SuperPod [33]
DGX BasePod [34]
HGX
HGX是一个计算模组,在系统完备性上不如DGX,但它可进行灵活的配置调整,适用于云服务提供商和大型数据中心。HGX的系列产品有:
HGX A100
HGX H100
HGX H200