NVLink结构人工智能 点击:156 | 回复:0



PLC军团长

    
  • [版主]
  • 精华:9帖
  • 求助:31帖
  • 帖子:1460帖 | 7990回
  • 年度积分:457
  • 历史总积分:59176
  • 注册:2004年7月13日
发表于:2018-08-01 13:54:06
楼主

NVLink 结构

更快速、更具可扩展性的互联技术

随着开发人员在人工智能 (AI) 计算等应用领域中越来越依赖并行结构,各行各业中的多 GPU 和多 CPU 系统愈发普及。其中包括采用 PCIe 系统互联技术的 4 GPU 和 8 GPU 系统配置来解决非常复杂的重大难题。然而,在多 GPU 系统层面,PCIe 带宽逐渐成为瓶颈,这就需要更快速和更具扩展性的多处理器互联技术。

更大限度提高系统吞吐量

 

更大限度提高系统吞吐量

NVIDIA® NVLink 技术提供更高带宽与更多链路,并可提升多 GPU 和多 GPU/CPU 系统配置的可扩展性,因而可以解决这种互联问题。单个 NVIDIA Tesla® V100 GPU 即可支持多达六条 NVLink 链路,总带宽为 300 GB/秒,这是 PCIe 3 带宽的 10 倍。全新 NVIDIA DGX-1 等服务器充分利用这些技术来提高可扩展性,进而实现超快速的深度学习训练。

 

GPU 至 GPU 通信加速的新水平

Tesla V100 中采用的 NVLink 首先引入 NVIDIA Pascal 架构,将每个方向的信号发送速率从 20 GB/每秒增加到 25 GB/每秒。此产品可用于 GPU 至 CPU 或 GPU 至 GPU 的通信,配备 Tesla V100 的 DGX-1V 服务器即是如此.

Tesla V100 中以 NVLink 连接的 GPU 至 GPU 和 GPU 至 CPU 通信

 

说明:Tesla V100 中以 NVLink 连接的 GPU 至 GPU 和 GPU 至 CPU 通信

在 DGX-1V 服务器中,混合立体网络拓扑使用 NVLink 连接 8 个 Tesla V100 加速器

 

说明:在 DGX-1V 服务器中,混合立体网络拓扑使用 NVLink 连接 8 个 Tesla V100 加速器

 

新的性能水平

 

新的性能水平

NVIDIA NVLink 将采用相同配置的服务器性能提高 31%。此产品可极大提高带宽并减少延迟,即使更大型的深度学习工作负载不断增加,也能实现性能扩展.

 

NVSWITCH:完全连接的 NVLINK

由于 PCIe 带宽日益成为多 GPU 系统级别的瓶颈,深度学习工作负载的快速增长使得对更快速、更可扩展的互连的需求逐渐增加。

NVLink 实现了很大的进步,可以在单个服务器中支持八个 GPU,并且可提升性能,使之超越 PCIe。但是,要将深度学习性能提升到一个更高水平,将需要使用 GPU 架构,该架构在一台服务器上支持更多的 GPU 以及 GPU 之间的全带宽连接。

NVIDIA NVSwitch 是首款节点交换架构,可支持单个服务器节点中 16 个全互联的 GPU,并可使全部 8 个 GPU 对分别以 300 GB/s 的惊人速度进行同时通信。这 16 个全互联的 GPU 还可作为单个大型加速器,拥有 0.5 TB 统一显存空间和 2 PetaFLOPS 计算性能。

NVSwitch Chart Speedup

 

 

* ECWMF 的 IFS:综合预报系统 (IFS) 是由位于英国雷丁的欧洲中期天气预报中心 (ECMWF) 开发的全球数值天气预报模型。ECMWF 是一个由欧洲大多数国家/地区支持的独立政府间组织,它经营着欧洲最大的超级计算机中心之一,可频繁更新全球天气预报。IFS 迷你应用程序基准测试的重点是球面谐波转换,该转换代表着整个模型的重要计算负载。由于基准测试放大了算法的转换阶段(按设计),因此此处显示的基准测试加速效果要比整个 IFS 模型的加速效果更好。但是,此基准测试表明,ECMWF 采用非常有效且经过验证的方法来提供世界领先的预报,这种方法在搭载 NVSwitch 的服务器(例如 NVIDIA 的 DGX-2)上仍然有效。

1分不嫌少!


楼主最近还看过


热门招聘
相关主题

官方公众号

智造工程师