AI时代加速器互联高性能计算解决方案比较，FPGA+Ethernet VS GPU+NVSwitch

当前AI模型的规模越来越大，对平台算力的要求也越来越高。2019年ICLR上的吸睛之作：Large Scale GAN Training for High Fidelity Natural Image Synthesis，使用大规模GAN,生成了质量可以以假乱真的图片。而这背后，是使用了512块TPU，密集训练24-48个小时的结果，因此训练这样一个规模的GAN模型所需的算力，可高达23PFLOPs(假设使用TPUv2)。（ICLR论文的深度解读参见笔者另一篇文章）

曼殊：ICLR『19谷歌大规模GAN训练论文深度解读?

zhuanlan.zhihu.com

要对这么大规模的计算任务进行加速，无论是使用FPGA还是GPU的伺服器，都需要对其进行互连，以扩放伺服器对深度学习模型的算力。本文将从互连系统的可扩放性（scalability）的角度，介绍并比较基于FPGA和GPU的方案，在大规模深度学习应用中的开发状态和应用前景。

本文的讨论分别基于Microsoft的Project Catapult与NVIDIA的DGX系统，选择这两个方案进行比较的原因，是它们都实现了FPGA/GPU之间一致的两两互连，即互连后的系统逻辑上可以看成一整块超大FPGA/GPU。

1. FPGA的可扩放性解决方案，通过伺服器间的乙太网实现FPGA两两互连

在微软的Project Catapult中，FPGA通过自带的收发器直接接上连接伺服器的 40 Gbps网线，并在FPGA内部实现了硬体的协议栈和路由器。这样，FPGA就利用了伺服器主机间的乙太网，实现了相互连接。在这样的互连方式下，每个FPGA作为网路中的结点，并无主从之分。另一方面，数据通过乙太网传播，传输延迟非常小。因此，通过这种方式互连的FPGA，在逻辑上可以看成是一块超大的FPGA。这种互连规模可以扩展到整个数据中心的规模，极大的提高了可扩展性。