随着开发人员在人工智能 (AI) 计算等应用领域中越来越依赖并行结构,各行各业中的多 GPU 和多 CPU 系统愈发普及。其中包括采用 PCIe 系统互联技术的 4 GPU 和 8 GPU 系统配置来解决非常复杂的重大难题。然而,在多 GPU 系统层面,PCIe 带宽逐渐成为瓶颈,这就需要更快速和更具扩展性的多处理器互联技术。
NVIDIA® NVLink™ 技术提供更高带宽与更多链路,并可提升多 GPU 和多 GPU/CPU 系统配置的可扩展性,因而可以解决这种互联问题。单个 NVIDIA Tesla® V100 GPU 即可支持多达六条 NVLink 链路,总带宽为 300 GB/秒,这是 PCIe 3 带宽的 10 倍。全新 NVIDIA DGX-1™ 等服务器充分利用这些技术来提高可扩展性,进而实现超快速的深度学习训练。
Tesla V100 中采用的 NVLink 首先引入 NVIDIA Pascal™ 架构,将每个方向的信号发送速率从 20 GB/每秒增加到 25 GB/每秒。此产品可用于 GPU 至 CPU 或 GPU 至 GPU 的通信,配备 Tesla V100 的 DGX-1V 服务器即是如此. 说明:Tesla V100 中以 NVLink 连接的 GPU 至 GPU 和 GPU 至 CPU 通信 说明:在 DGX-1V 服务器中,混合立体网络拓扑使用 NVLink 连接 8 个 Tesla V100 加速器 GPU 至 GPU 通信加速的新水平
NVIDIA NVLink 将采用相同配置的服务器性能提高 31%。此产品可极大提高带宽并减少延迟,即使更大型的深度学习工作负载不断增加,也能实现性能扩展.
由于 PCIe 带宽日益成为多 GPU 系统级别的瓶颈,深度学习工作负载的快速增长使得对更快速、更可扩展的互连的需求逐渐增加。 NVLink 实现了很大的进步,可以在单个服务器中支持八个 GPU,并且可提升性能,使之超越 PCIe。但是,要将深度学习性能提升到一个更高水平,将需要使用 GPU 架构,该架构在一台服务器上支持更多的 GPU 以及 GPU 之间的全带宽连接。 NVIDIA NVSwitch 是首款节点交换架构,可支持单个服务器节点中 16 个全互联的 GPU,并可使全部 8 个 GPU 对分别以 300 GB/s 的惊人速度进行同时通信。这 16 个全互联的 GPU 还可作为单个大型加速器,拥有 0.5 TB 统一显存空间和 2 PetaFLOPS 计算性能。NVSWITCH:完全连接的 NVLINK
* ECWMF 的 IFS:综合预报系统 (IFS) 是由位于英国雷丁的欧洲中期天气预报中心 (ECMWF) 开发的全球数值天气预报模型。ECMWF 是一个由欧洲大多数国家/地区支持的独立政府间组织,它经营着欧洲最大的超级计算机中心之一,可频繁更新全球天气预报。IFS 迷你应用程序基准测试的重点是球面谐波转换,该转换代表着整个模型的重要计算负载。由于基准测试放大了算法的转换阶段(按设计),因此此处显示的基准测试加速效果要比整个 IFS 模型的加速效果更好。但是,此基准测试表明,ECMWF 采用非常有效且经过验证的方法来提供世界领先的预报,这种方法在搭载 NVSwitch 的服务器(例如 NVIDIA 的 DGX-2)上仍然有效。
楼主最近还看过