從8小時到80秒:NVIDIA作為唯一一家提交了全部6項基準測試的公司,實現了AI訓練用時大突破。

「天下武功,唯快不破」,你需要以「快」制勝。

如今,全球頂級公司的研究人員和數據科學家團隊們都在致力於創建更為複雜的AI模型。但是,AI模型的創建工作不僅僅是設計模型,還需要對模型進行快速地訓練。

這就是為什麼說,如果想在AI領域保持領導力,就首先需要有賴於AI基礎設施的領導力。而這也正解釋了為什麼說今日發布的MLPerf AI訓練結果如此之重要。

通過完成全部6項MLPerf基準測試,NVIDIA展現出了全球一流的性能表現和多功能性。NVIDIA AI平台在訓練性能方面創下了八項記錄,其中包括三項大規模整體性能紀錄和五項基於每個加速器的性能紀錄。

表1:NVIDIA MLPerf AI紀錄

每個加速器的比較基於早前報告的基於單一NVIDIA DGX-2H(16個 V100 GPU)、與其他同規模相比較的MLPerf 0.6的性能(除MiniGo採用的是基於8個V100 GPU的NVIDIA DGX-1 ) |最大規模MLPerf ID:Mask R-CNN:0.6-23,GNMT:0.6-26,MiniGo:0.6-11 |每加速器MLPerf ID:Mask R-CNN,SSD,GNMT,Transformer:全部使用0.6-20,MiniGo:0.6-10

以上測試結果數據由谷歌、英特爾、百度、NVIDIA、以及創建MLPerf AI基準測試的其他數十家頂級技術公司和大學提供背書,能夠轉化為具有重要意義的創新。

簡而言之,NVIDIA的AI平台如今能夠在不到兩分鐘的時間內完成此前需要一個工作日才能完成的模型訓練。

各公司都知道,釋放生產力是一件重中之重的要務。超級計算機如今已經成為了AI的必備工具,樹立AI領域的領導力首先需要強大的AI計算基礎設施支持。

NVIDIA最新的MLPerf結果很好地展示了將NVIDIA V100 Tensor核心 GPU應用於超算級基礎設施中所能帶來的益處。

在2017年春季的時候,使用搭載了V100 GPU的NVIDIA DGX-1系統訓練圖像識別模型ResNet-50,需要花費整整一個工作日(8小時)的時間。

而如今,同樣的任務, NVIDIA DGX SuperPOD使用相同的V100 GPU,採用Mellanox InfiniBand進行互聯,並藉助可用於分散式AI訓練的最新NVIDIA優化型AI軟體,僅需80秒即可完成。

80秒的時間,甚至都不夠用來沖一杯咖啡。

圖1:AI時間機器

2019年MLPerf ID(按圖表從上到下的順序):ResNet-50:0.6-30 | Transformer:0.6-28 | GNMT:0.6-14 | SSD:0.6-27 | MiniGo:0.6-11 | Mask R-CNN:0

AI的必備工具:DGX SuperPOD 能夠更快速地完成工作負載

仔細觀察今日的MLPerf結果,會發現NVIDIA DGX SuperPOD是唯一在所有六個MLPerf類別中耗時都少於20分鐘的AI平台:

圖2:DGX SuperPOD打破大規模AI紀錄

大規模MLPerf 0.6性能 | 大規模MLPerf ID:RN50 v1.5:0.6-30,0.6-6 | Transformer:0.6-28,0.6-6 | GNMT:0.6-26,0.6-5 | SSD:0.6-27,0.6-6 | MiniGo:0.6-11,0.6-7 | Mask R-CNN:0.6-23,0.6-3

更進一步觀察會發現,針對重量級目標檢測和強化學習,這些最困難的AI問題,NVIDIA AI平台在總體訓練時間方面脫穎而出。

使用Mask R-CNN深度神經網路的重量級目標檢測可為用戶提供高級實例分割。其用途包括將其與多個數據源(攝像頭、感測器、激光雷達、超聲波等)相結合,以精確識別並定位特定目標。

這類AI工作負載有助於訓練自動駕駛汽車,為其提供行人和其他目標的精確位置。另外,在醫療健康領域,它能夠幫助醫生在醫療掃描中查找並識別腫瘤。其意義的重要性非同小可。

NVIDIA的「重量級目標檢測」用時不到19分鐘,性能幾乎是第二名的兩倍。

強化學習是另一有難度的類別。這種AI方法能夠用於訓練工廠車間機器人,以簡化生產。城市也可以用這種方式來控制交通燈,以減少擁堵。NVIDIA採用NVIDIA DGX SuperPOD,在創紀錄的13.57分鐘內完成了對MiniGo AI強化訓練模型的訓練。

咖啡還沒好,任務已完成:即時AI基礎設施提供全球領先性能

打破基準測試紀錄不是目的,加速創新才是目標。這就是為什麼NVIDIA構建的DGX SuperPOD不僅性能強大,而且易於部署。

DGX SuperPOD全面配置了可通過NGC容器註冊表免費獲取的優化型CUDA-X AI軟體,可提供開箱即用的全球領先AI性能。

在這個由130多萬名CUDA開發者組成的生態系統中,NVIDIA與開發者們合作,致力於為所有AI框架和開發環境提供有力支持。

我們已經助力優化了數百萬行代碼,讓我們的客戶能夠將其AI項目落地,無論您身在何處都可以找到NVIDIA GPU,無論是在雲端,還是在數據中心,亦或是邊緣。

AI基礎設施如今有夠快,未來會更快

更好的一點在於,這一平台的速度一直在提升。NVIDIA每月都會發布CUDA-X AI軟體的新優化和性能改進,集成型軟體堆棧可在NGC容器註冊表中免費下載,包括容器化的框架、預先訓練好的模型和腳本。

藉助在CUDA-X AI軟體堆棧上的創新,NVIDIA DGX-2H伺服器的MLPerf 0.6吞吐量比NVIDIA七個月前發布的結果提升了80%。

圖3:基於同一伺服器,性能提升高達80%

對單個曆元上單一DGX-2H伺服器的吞吐量進行比較(數據集單次通過神經網路)| MLPerf ID 0.5 / 0.6比較:ResNet-50 v1.5: 0.5-20/0.6-30 | Transformer: 0.5-21/0.6-20 | SSD: 0.5-21/0.6-20 | GNMT: 0.5-19/0.6-20 | Mask R-CNN: 0.5-21/0.6-20

所有這些成果結合在一起,其背後所代表的是數百億美元的投資和努力,這一切都是為了讓你能夠快速完成工作,而且未來還會更快。


推薦閱讀:
相关文章