英偉達斥巨資收購Mellanox，數據中心級高性能計算時代水煮三國，英偉達，微軟還是…谷歌？

最近半導體領域發生了一件備受關注的收購案：英偉達擊敗英特爾，以69億美金收購以色列晶元廠商Mellanox。英偉達是全球知名的GPU製造商，帶動也得益於AI的蓬勃發展，已經成為半導體炙手可熱的公司。另一方面，Mellanox以InfiniBand和乙太網產品線知名。此次收購的目的，是將英偉達的加速計算平台與Mellanox全球知名的加速網路平台結合，共同創建新一代數據中心級解決方案。英偉達葫蘆里賣的什麼葯？GPU在數據中心加速的現狀如何，優勢與劣勢又在何處？GPU，網路和數據中心，這三者又是如何結合起來的？

實際上，通過乙太網連接加速器已經不是什麼新鮮玩意兒，微軟早在2015年就開始在其雲計算服務Azure中布局了通過乙太網連接的FPGA在數據中心對服務進行加速的方案Project Catapult。該方案在每台伺服器的CPU和NIC之間放置一個有自己協議棧的FPGA，FPGA之間利用伺服器之間的乙太網進行互聯通信。該項目現在已經在Bing、Azure等業務上大規模的投入使用。在計算機網路系統NSDI2019上，微軟發表了最新的互聯繫統Direct Universal Access，進一步增強了整個數據中心的資源的互聯互通。

英偉達為了實現GPU互連，提出了NVLink和NVSwitch技術，基於此，英偉達在2017和2018年發布了DGX-1和DGX-2，其中DGX-2實現了16個GPU的兩兩互連。然而這種方案在數據中心層面的可擴放性（scalability）十分有限。首先，NVSwitch作為單板交換機，帶寬的可上升空間已經不大，可以預測通過NVLink+NVSwitch方案進行互連的GPU數量不會再有大幅上漲。此外，由於Intel並不買NVSwitch的帳，因此CPU成了限制GPU更大規模互連的瓶頸，這也將DGX限制在了單個主機上。（關於上面兩種互連方案的細節，可參見筆者另一篇文章

曼殊：AI時代加速器互聯高性能計算解決方案比較，FPGA+Ethernet VS GPU+NVSwitch?

zhuanlan.zhihu.com

如此看來，如果使用乙太網連接GPU，就能從根本上解決GPU在數據中心層面的可擴放性問題。然而，與FPGA不同，GPU本身作為一個加速卡的存在，是無法作為一個主機使用的，無法單獨支持乙太網協議棧，直接處理網卡中的數據。也就是說GPU就無法像微軟Project Catapult中的FPGA那樣，繞開CPU獨立作為網路中的一個節點實現互連。

非常巧妙地，英偉達使用RDMA技術解決了這個問題，RDMA協議中應用程序可以繞開CPU直接與網卡交換數據，GPU支持與網卡分享內存。這樣，RDMA協議就能夠使GPU通過網路，直接讀取另外的GPU中的數據。通俗點說，既然GPU不能做主機，就讓網卡來做主機。英偉達此次收購的Mellanox的InfiniBand是最早實現RDMA的網路協議，Mellanox與英偉達在2014年初發布了支持GPUDirect RDMA的網卡驅動程序。（GPU Direct RDMA技術細節參見阿里雲棲社區

淺析GPU通信技術（下）-GPUDirect RDMA?

yq.aliyun.com