导图社区 Nvidia GPU互联技术全景图

Nvidia GPU互联技术全景图

本文详细介绍了Nvidia GPU互联技术和产品，非常有收藏价值！感兴趣的小伙伴可以收藏一下

编辑于2024-05-09 17:27:11

GPU
大模型
Nvidia
Nvlink
Nvswitch

宇尘

他的近期作品查看更多>>

TMO与PMO组织架构及职责
这是一篇关于TMO与PMO组织架构及职责的思维导图，模板详细拆解了 TMO（技术交付组织）与 PMO（项目管理办公室）两大核心模块：TMO 模块涵盖业务分析师、应用技术负责人、项目技术负责人、测试技术负责人等多个关键岗位，明确了各角色的执行层对应团队与核心职责，如业务需求转化、技术方案设计、跨模块资源协调、用户验收测试管控等；PMO 模块则包含多供应商管理、变更管理、项目计划与管理、成本管控、配置管理等全流程职能，清晰呈现各岗位的汇报线、工作边界与协作逻辑，解决项目管理中角色模糊、职责交叉、流程混乱等痛点。无论是 IT 项目交付团队搭建、企业项目管理体系梳理，还是个人项目管理知识学习、团队培训材料制作，该模板都能提供标准化参考框架。项目经理可借助它明确团队分工、优化协作流程，技术负责人能快速对齐技术交付各环节的角色职责，企业管理者可用于搭建规范的项目管理组织架构，项目团队成员也能通过模板快速了解岗位定位与工作要求，实现高效协同。模板支持按需修改与拓展，可直接套用或根据企业实际需求调整岗位、职责内容，大幅节省架构梳理与文档制作时间，提升项目管理效率。
华为项目交付组织架构
这是一篇关于华为项目交付组织架构的思维导图，涵盖项目铁三角核心角色、决策层与执行层架构、项目管理办公室（PMO）及技术交付组织（TMO）四大核心模块，清晰梳理了各岗位职能、汇报关系、关键逻辑与协作流程，是拆解华为项目管理体系、搭建标准化项目交付团队、明确项目权责分工的实用参考工具。模板深度融合华为项目管理的核心理念，详细拆解了客户负责人、方案负责人、交付负责人、PMO Leader、TMO Leader 等关键角色的职责边界，以及多供应商管理、变更管控、成本控制、技术执行等专项职能的分工逻辑，帮助用户快速理解大型复杂项目中 “决策 - 管理 - 执行” 三层架构的协作模式，解决项目权责不清、流程混乱、协同低效等常见问题。无论是企业搭建项目交付团队、项目管理者梳理组织架构，还是学习华为项目管理方法论，都能通过该模板快速掌握项目交付组织的搭建逻辑，高效落地项目管理流程。借助万兴脑图软件绘制，助力快速搭建标准化项目交付管理体系。
DPIA流程和模板
这是一篇关于DPIA流程和模板的思维导图，主要内容包括：DPIA模版，DPIA概述和范围，如何执行DPIA，可接受的DPIA标准，DPIA解决什么问题，DPIA执行标准。

Nvidia GPU互联技术全景图

社区模板帮助中心，点此进入>>

宇尘

他的近期作品查看更多>>

相似推荐
大纲

互联网9大思维
- 39.8k
- 977
- 2.5k
- 401
- 0
MindMaster
组织架构-单商户商城webAPP 思维导图。
- 18.7k
- 3
- 186
- 9
- 1
Kacyun
域控上线
- 4.4k
- 171
- 11
- 4
- 0
jackrao
python思维导图
- 9.6k
- 557
- 242
- 7
- 0
(*^▽^*)
css
- 3.9k
- 1
- 43
- 3
- 0
A张舫
CSS
- 6.4k
- 271
- 189
- 33
- 0
journey
计算机操作系统思维导图
- 8.1k
- 354
- 209
- 16
- 0
journey
计算机组成原理
- 4.1k
- 98
- 71
- 8
- 0
journey
IMX6UL(A7)
- 2.7k
- 41
- 5
- 0
- 0
Handler XU
考试学情分析系统
- 3.6k
- 51
- 10
- 1
- 0
蒋龙

Nvidia GPU互联技术全景图

GPU通信基础

GPUDirect

GPUDirect是一系列技术，它是Magnum IO的一部分，它能增强GPU的数据移动和访问。使用GPUDirect可以让网络适配器和存储驱动直接读/写GPU显存，而减少不必要的系统内存拷贝。具体包括：

GPUDirect Storage

GPUDirect RDMA（Remote Direct Memory Access）

GPUDirect P2P

GPUDirect for Video

GPUDirect Storage

对AI和HPC应用而言，随着数据规模的不断扩大，数据加载时间对系统性能影响越发显著。随着GPU计算速度的快速提升，系统I/O（数据从存储读取到GPU显存）已经成为系统瓶颈。

GPUDirect Storage提供本地存储（NVMe）/远程存储（NVMe over Fabric）与GPU显存的直接通路，它可以减少不必要的系统内存拷贝（通过bounce buffer）。它可应用网卡NIC和存储系统附近的DMA引擎，直接向GPU显存写入/读取数据。

GPUDirect RDMA

RDMA可使外围PCIe设备直接访问GPU显存。GPUDirect RDMA被设计用来支持GPU间快速跨机通信。它能减轻CPU负载，同时也能减少不必要的通过系统内存进行的数据拷贝。

GPUDirect RDMA在CUDA Toolkit中提供支持。您可联系网络供应商下载相关驱动，来使用RDMA功能。它对Tesla and Quadro GPU都是可用的。

GPUDirect P2P

GPUDirect P2P支持GPU之间通过memory fabric（PCIe或NVLink）直接进行数据拷贝。CUDA driver原生支持P2P技术，开发者可使用最新的CUDA Toolkit和driver来实现GPU间直接通信（一般用于机内通信）。

GPUDirect for Video

GPUDirect for Video提供一个服务于frame-based的通过优化的流水线功能。设备包括：frame grabbers、video switchers、HD-SDI capture、CameraLink device，它可以把视频帧高效地向GPU显内中写入/读出。

过去处理视频的第三方硬件与GPU交互时，会引入不必要的延迟，如右图左边所示。有了GPUDirect for Video技术，I/O设备和GPU可达到很好的同步（两个设备driver间拷贝数据），同时能减少CPU的负载。GPUDirect for Video由第三方公司的SDK提供，开发者对视频流进/出GPU（通过OpenGL, DirectX or CUDA在子帧的传输过程）有充分的控制能力

机内通信

基于PCIe通信

在单机内两个GPU通信最原始的方法需要进行两次数据拷贝，如图7所示。首先，数据通过CPU和PCIe总线从源GPU拷贝到host-pinned共享内存。然后通过CPU和PCIe总线从host-pinned共享内存拷贝到目标GPU。整个过程进行了两次数据拷贝，更别提对CPU和系统内存的占用了

当支持GPUDirect P2P技术时，将数据从源GPU拷贝到目标GPU不需要系统内存缓存中间数据。如果两个GPU连接到同一PCIe总线时，GPUDirect P2P允许每个GPU直接访问自己与对方的GPU显存，而不用通过CPU辅助。此方法较前述原始方法，在执行相同任务时数据拷贝动作减少一半。

NVLink+NVSwitch

NVLink已经从第一代发展到了第四代，提供的两个GPU之间的双向互联带宽分别是 160 GB/s、300 GB/s、600 GB/、900 GB/s [1, 3]。当然，对于中国定制版的A800和H800，两个GPU之间的NVLink双向带宽是 400 GB/s

NVLink

上图DGX-1的系统拓扑图，可以看到GPU与CPU是通过PCIe总线连接的，GPUDirect P2P采用NVLink进行互联（整体叫做混合立方网格拓扑），GPUDirect RDMA中GPU和网络接口卡NIC用PCIe总线互连。NVLink至今已发展到第四代。

NVSwitch

为了解决混合立方网格拓扑结构的问题，Nvidia在GTC 2018发布了NVSwitch。类似于PCIe使用PCIe Switch用于拓扑的扩展，Nvidia使用NVSwitch实现了NVLink的全连接。NVSwitch作为节点交换架构，支持单节点中16个GPU全互联，并且支持8对GPU同时通信。整体来看，这16个全互联的GPU相当于一台超级计算机。更多使用NVSwitch实现GPU全互联的案例可以参考下图。

标准的DGX A100由8块A100，每块有12根NVLink（第三代）连接，然后通过6个NVSwitch（第二代）进行互联。理论上，可以把DGX A100扩展成支持16个A100+16个NVSwitch的超级计算机。实际上这样的扩展非常强劲，我们只需要其部分能力就能在性能和容量上实现跳跃提升，相较标准DGX A100而言。

NVSwitch目前已发展到第三代，具体的技术演进路线及每一代产品的参数如下所示：

跨机通信

RDMA通信

如果涉及GPU的跨机通信，最原始的方法（不支持RDMA）需要借助系统内存才能完成数据传输，具体有5个步骤：

1. 在源节点中把数据从源GPU拷贝到host-pinned系统内存中。

2. 在源节点中把数据从host-pinned系统内存拷贝到网卡驱动缓冲区

3. 通过网络传输把数据从源节点传送到目标节点的网卡驱动缓冲区

4. 在目标节点将数据从网卡驱动缓冲区传送到host-pinned系统内存

5. 在目标节点通过PCIe总线将数据从host-pinned系统内存拷贝到目标GPU显存

如果有GPUDirect RDMA加持，上述5个步骤可简化至一步完成。该技术可减少在host-pinned系统内存中的中间数据拷贝，可极大提升通信效率。

说完RDMA的工作原理后，我们来看看RDMA的三种具体实现方式

InfiniBand是最早实现的RDMA协议，广泛应用于高性能计算中。但是IB和传统TCP/IP网络差别较大，需要专用硬件设备（比如Mellanox网卡），价格高昂。因此又衍生出更实惠的和以太网融合的iWARP和RoCE方案。

RoCE（RDMA over Converged Ethernet）是一种允许通过以太网进行 RDMA 的网络协议。RoCE v1是一种链路层协议，允许在同一个广播域下的任意两台主机直接访问；RoCE v2基于UDP层协议，实现了路由功能，RoCE v2针对RoCE v1进行了一些改进，如引入IP解决扩展性问题，可以跨二层组网等[18]。

iWARP允许在TCP上执行RDMA的网络协议。在大型组网的情况下，iWARP的大量TCP连接会占用大量的额外内存资源，对系统规格要求较高。

NVSwitch通信

NVLink和NVSwitch的组合，不仅可用于机内通信，也可应用于跨机通信。我们之前看到NVSwitch连接多个NVLink可以提供单节点内的GPU全连接。现在通过在服务器外部增加第二层NVLink Switch就可把多达256个GPU互联在一起，这个规模的集群可用来训练万亿参数的大模型。

Nvidia明星产品

Magnum IO

Nvidia Magnum IO是数据中心IO的并行化、智能化架构，它是IO的加速平台[23]。它可以最大化很多重要应用的存储、网络、多节点和多GPU通信性能。Nvidia Magnum IO利用存储IO、网络IO、在网计算和IO管理简化和加速数据移动、访问、多GPU和多节点管理。Magnum IO支持Nvidia CUDA-X库，同时能利用一系列Nvidia GPU和Nvidia网络硬件拓扑实现高吞吐和低延迟。

DGX

DGX是一个完整的超级计算机，它是一套完整的人工智能解决方案，包括硬件设备、软件工具和优化，具有很高的集成度和易用性，适用于企业和研究机构。DGX的系列产品有：

DGX-1 [28]

DGX-2 [29]

DGX A100 [30]

DGX H100 [31]

DGX GH200 [32]

DGX SuperPod [33]

DGX BasePod [34]

HGX

HGX是一个计算模组，在系统完备性上不如DGX，但它可进行灵活的配置调整，适用于云服务提供商和大型数据中心。HGX的系列产品有：

HGX A100

HGX H100

HGX H200