导图社区 阿里云GPU 云服务器
详细介绍阿里云GPU云服务器,异构计算(Heterogeneous Computing)是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式,目前主要包括GPU云服务器、FPGA云服务器和弹性加速计算实例EAIS等。
编辑于2023-10-09 13:24:03这是一篇关于DPIA流程和模板的思维导图,主要内容包括:DPIA模版,DPIA概述和范围,如何执行DPIA,可接受的DPIA标准,DPIA解决什么问题,DPIA执行标准。
本文翻译了GDPR并且添加了解析,深入剖析GDPR的各个方面,可以更好地理解这一法规的重要性,并为企业和个人在数据保护方面提供有益的指导和建议。非常有价值。
这是一篇关于信息安全技术 、数据安全能力成熟度模型Informatio的思维导图,主要内容包括:附 录 C (资料性附录) 能力成熟度等级评估流程和模型使用方法,附 录 B (资料性附录) 能力成熟度等级评估参考方法,DSMM架构,附 录 A(资料性附录) 能力成熟度等级描述与 GP,DSMM-数据安全过程维度,DSMM-安全能力维度。
社区模板帮助中心,点此进入>>
这是一篇关于DPIA流程和模板的思维导图,主要内容包括:DPIA模版,DPIA概述和范围,如何执行DPIA,可接受的DPIA标准,DPIA解决什么问题,DPIA执行标准。
本文翻译了GDPR并且添加了解析,深入剖析GDPR的各个方面,可以更好地理解这一法规的重要性,并为企业和个人在数据保护方面提供有益的指导和建议。非常有价值。
这是一篇关于信息安全技术 、数据安全能力成熟度模型Informatio的思维导图,主要内容包括:附 录 C (资料性附录) 能力成熟度等级评估流程和模型使用方法,附 录 B (资料性附录) 能力成熟度等级评估参考方法,DSMM架构,附 录 A(资料性附录) 能力成熟度等级描述与 GP,DSMM-数据安全过程维度,DSMM-安全能力维度。
GPU 云服务器
阿里云异构计算产品总览
异构计算(Heterogeneous Computing)是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式,目前主要包括GPU云服务器、FPGA云服务器和弹性加速计算实例EAIS等。异构计算能够让最适合的专用硬件去服务最适合的业务场景,在特定场景下,异构计算产品比普通的云服务器高出一个甚至更多数量级的性价比和效率。异构计算的显著优势在于实现了让性能、成本和功耗三者均衡的技术,通过让最合适的专用硬件去做最适合的事来调节功耗,从而达到性能和成本的最优化。
产品家族
GPU云服务器
GPU云服务器是基于GPU应用的计算服务器。GPU在执行复杂的数学和几何计算方面有着独特的优势。特别是浮点运算、并行运算等方面,GPU可以提供上百倍于CPU的计算能力。作为阿里云弹性计算家族的一员,GPU云服务器结合了GPU计算力与CPU计算力,同时实现GPU计算资源的即开即用和弹性伸缩。满足您在人工智能、高性能计算、专业图形图像处理等场景中的需求。更多信息,请参见
神行工具包
神行工具包是阿里云专门为GPU云服务器搭配的GPU计算服务增强工具集合,用户可以基于IaaS产品快速构建企业级服务能力。
神龙AI加速引擎AIACC
基于阿里云IaaS资源推出的AI加速引擎,用于优化基于AI主流计算框架搭建的模型。
AI分布式训练通信优化库AIACC-ACSpeed
是阿里云推出的AI分布式训练通信优化库AIACC-Training 2.0版本,基于模块化的解耦优化设计方案。
AI训练计算优化编译器AIACC-AGSpeed
是阿里云推出的一个基于PyTorch深度学习框架研发的计算优化编译器,用于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能。
集群极速部署工具FastGPU
是一套阿里云推出的人工智能计算极速部署工具。
GPU容器共享技术cGPU
是阿里云基于内核虚拟GPU隔离的容器共享技术,助力您在GPU中快速迅捷地部署容器,实现多个容器共享一张GPU卡,使业务安全隔离,提高GPU硬件资源的利用率并降低使用成本。
弹性加速计算实例EAIS
EAIS是一款阿里云提供的性能卓越、成本优化、弹性扩展的IaaS(Infrastructure as a Service)级别弹性计算服务。实现了异构计算资源的弹性挂载,即前端可以使用不带异构加速的ECS实例,后端可以动态挂载或卸载GPU实例,让普通的ECS具备异构计算加速的能力,使CPU资源与GPU资源成功解耦。EAIS让CPU与异构加速器的数量配比实现了灵活可配置,从而满足AI推理等场景对于CPU和异构加速器的数量配比的不同需求。同时,后端的GPU实例通过池化管理和调度,可以灵活选择最适合您工作负载的异构加速器,降低异构加速成本。
FPGA云服务器
FPGA云服务器是一类提供了现场可编程门阵列(FPGA)的实例规格。由于FPGA硬件的可重配特性,您可以快速擦写和重配已创建的FPGA硬件加速应用,同时拥有低时延硬件与资源弹性。
GPU云服务器
GPU云服务器提供GPU加速计算能力,实现GPU计算资源的即开即用和弹性伸缩。作为阿里云弹性计算家族的一员,GPU云服务器结合了GPU计算力与CPU计算力,满足您在人工智能、高性能计算、专业图形图像处理等场景中的需求。
产品优势
覆盖范围广阔
阿里云GPU云服务器在全球17个地域实现规模部署,覆盖范围广,结合弹性供应、弹性伸缩等交付方式,能够很好地满足您业务的突发需求。
超强计算能力
阿里云GPU云服务器配备业界超强算力的GPU计算卡,结合高性能CPU平台,单实例可提供高达1000 TFLOPS的混合精度计算性能。
网络性能出色
阿里云GPU云服务器实例的VPC网络最大支持450万的PPS及32 Gbit/s的内网带宽。在此基础上,超级计算集群产品中,节点间额外提供高达50 Gbit/s的RDMA网络,满足节点间数据传输的低延时高带宽要求。
购买方式灵活
支持灵活的资源付费模式,包括包年包月、按量付费、抢占式实例、预留实例券、存储容量单位包。您可以按需要购买,避免资源浪费。
GPU云服务器应用场景
直播实时视频转码
阿里云GPU云服务器重点支持2019年天猫双11狂欢夜直播的实时视频转码,以高画质、低带宽、高分辨率、实时的综合优势服务于天猫双11狂欢夜当天直播业务4K、2K、1080P等各个分辨率的转码。具体说明如下:
GPU云服务器支持高并发实时视频流5000路以上,并逐步上升到峰值6200路每分钟,且顺利度过流量洪峰。
GPU云服务器参与实时家居渲染图片生成等业务,首次提供了大量算力强劲的ebmgn6v裸金属实例,支持淘宝渲染方提升几十倍的渲染性能,第一次实现秒级实时渲染,完成总计超过5000张大型家居渲染图。
AI训练
GPU计算型实例规格族gn6v和gn6e具有优异的通用GPU计算加速能力,适合为深度学习提供加速引擎。具体说明如下:
gn6v实例配备具有16 GB显存的NVIDIA V100 GPU计算卡,gn6e实例配备具有32 GB显存的NVIDIA V100 GPU计算卡,单节点可提供高达1000 TFlops的混合精度计算能力。
实例与弹性计算生态的完美结合,为在线和离线场景提供了通用的解决方案。
实例搭配容器服务使用,可以简化部署和运维的复杂度,提供资源调度服务。
AI推理
GPU计算型实例规格族gn6i具有优异的AI推理能力,满足了深度学习(尤其是推理)场景下的算力需求。具体说明如下:
gn6i实例基于配备NVIDIA Tesla T4 GPU计算卡,单精度浮点计算能力最高可达8.1 TFlops,int8定点运算处理能力最高可达130 TOPS,支持混合精度。
单卡功耗仅75 W,具有极高的性能功耗比。
实例与弹性计算生态的完美结合,为在线和离线场景提供了通用的解决方案。
实例搭配容器服务使用,可以简化部署和运维的复杂度,并提供资源调度服务。
镜像市场提供预装NVIDIA GPU驱动和深度学习框架的镜像,简化您的部署操作。
云端图形工作站
GPU计算型实例规格族gn6i采用基于Turing架构的NVIDIA Tesla T4 GPU加速器,具有极佳的图形计算能力。gn6i实例可以结合云桌面产品提供云端图形工作站服务,应用于影视动画设计、工业设计、医疗成像、高性能计算的结果呈现等场景。
相关概念
GPU云服务器
图形处理器(Graphics Processing Unit)。相比CPU具有众多计算单元和更多的流水线,适合用于大规模并行计算等场景。
EGS
弹性GPU服务(Elastic GPU Service)。阿里云弹性计算和GPU高速的并行异构的加速器的组合服务,兼具弹性计算的特点和GPU的加速能力。
CUDA
NVIDIA推出的通用并行计算架构,帮助您使用NVIDIA GPU解决复杂的计算问题。
cuDNN
NVIDIA推出的用于深度神经网络的GPU加速库。
神行工具包
阿里云专门为GPU云服务器搭配的具有GPU计算服务增强能力的免费工具集合。
AIACC-Taining
阿里云自研的分布式训练任务AI加速器,可以显著提升训练性能。
AIACC-Inference
阿里云自研的推理AI加速器,可以显著提升推理性能。
AIACC-ACSpeed
阿里云推出的AI分布式训练通信优化库。可实现分布式训练在兼容性、适用性和性能加速等方面的升级。
AIACC-AGSpeed
阿里云推出的一个基于PyTorch深度学习框架研发的计算优化编译器。可以实现无感的计算优化功能。
FastGPU
阿里云推出的人工智能计算任务构建工具。提供便捷的接口和命令行,供您在阿里云IaaS资源上构建人工智能计算任务。
cGPU
阿里云基于内核虚拟GPU隔离的容器共享技术。隔离GPU资源,实现多个容器共用一张显卡。
限制概述
仅弹性裸金属服务器和超级计算集群支持二次虚拟化,其他规格族不支持安装虚拟化软件和二次虚拟化。
不支持声卡应用。
不支持直接加载外接硬件设备(如硬件加密狗、U盘、外接硬盘、银行UKey等),您可以尝试软件加密狗或者动态口令二次验证等。
不支持多播协议。如果需要使用多播,建议改为使用单播点对点方式。
日志服务不支持32位Linux系统云服务器。
如何查看日志服务支持的云服务器系统(Linux系统和Windows系统)
如果云服务器需要备案,则云服务器有购买要求,且每台ECS实例可申请的备案服务号数量有限。
部分软件或应用的许可证(License)需要与云服务器的硬件信息绑定。当云服务器进行迁移操作时可能会引起硬件信息的变更,进而导致License失效。
神行工具包
神行工具包(DeepSpeed)是阿里云专门为GPU云服务器搭配的GPU计算服务增强工具集合,您可以基于IaaS产品快速构建企业级服务能力。GPU云服务器搭配神行工具包中的组件可以帮助您更方便、更高效地使用阿里云的云上GPU资源。
神行工具包主要包括以下组件:
神龙AI加速引擎AIACC
AI分布式训练通信优化库AIACC-ACSpeed
计算优化编译器AIACC-AGSpeed
集群极速部署工具FastGPU
GPU容器共享技术cGPU
神行工具包应用场景
AI训练
AIACC适用于所有AI训练场景和AI推理场景。AIACC-ACSpeed和AIACC-AGSpeed适用于所有基于PyTorch框架的AI训练场景,并针对PyTorch框架可以实现定制化的深度优化功能。
AIACC进行AI训练的典型业务场景
图像分类、图像识别
MXNet框架的模型
并行文件存储系统CPFS
CTR预估
TensorFlow框架的Wide&Deep模型
文件系统HDFS
NLP自然语言处理
TensorFlow框架的Transformer、Bert模型
并行文件存储系统CPFS
AIACC-ACSpeed进行AI训练的典型业务场景
图像分类、图像识别
Resnet、VGG16模型等,以及Stable Diffusion等AIGC模型
并行文件存储系统CPFS
CTR预估
Wide&Deep模型
文件系统HDFS
NLP自然语言处理
Transformer、Bert模型等
并行文件存储系统CPFS
大模型
Megatron-LM、DeepSpeed等混合并行的LLM大模型场景的Pretrain和Finetune
并行文件存储系统CPFS
AGSpeed进行AI训练的典型业务场景
图像分类
ResNet、MobileNet等模型
图像分割
Unet3D等模型
NLP自然语言处理
BERT、GPT2、T5等模型
AI推理
AIACC能够适用于所有AI推理场景
视频超分推理
超分模型
T4 GPU
视频解码移植到GPU。
前后处理移植到GPU。
自动凑满一次运算所需的数据集大小。
卷积的深度优化。
图像合成在线推理
GAN模型
T4 GPU
前后处理移植到GPU。
自动凑满一次运算所需的数据集大小。
卷积的深度优化。
CTR预估推理
Wide&Deep模型
M40 GPU
流水线优化。
模型拆分。
子模型分别优化。
自然语言处理推理
Bert模型
T4 GPU
前后处理流水线优化。
自动凑满一次运算所需的数据集大小。
Kernel深入优化。