【新智元導讀】華為雲 ModelArts 在國際權威的深度學習模型基準測試平台斯坦福 DAWNBenchmark 上取得了當前圖像識別訓練時間最佳成績,ResNet-50 在 ImageNet 數據集上收斂僅用 10 分 28 秒,比第二名成績提升近 44%。華為自研了分散式通用加速框架 MoXing,在應用層和 TensorFlow、MXNet、PyTorch 等框架之間實現再優化。ModelArts 公測地址:huaweicloud.com/product

日前,斯坦福大學發布了 DAWNBenchmark 最新成績,在圖像識別(ResNet50-on-ImageNet,93% 以上精度)的總訓練時間上,華為雲 ModelArts 排名第一,僅需 10 分 28 秒,比第二名提升近 44%。

斯坦福大學 DAWNBenchmark 圖像識別訓練時間最新成績,華為雲 ModelArts 以 10 分 28 秒排名第一,超越了 fast.ai、谷歌等勁敵。來源:dawn.cs.stanford.edu/be

作為人工智慧最重要的基礎技術之一,近年來深度學習逐步延伸到更多的應用場景。除了精度,訓練時間和成本也是構建深度學習模型時需要考慮的核心要素。然而,當前的深度學習基準往往以衡量精度為主,斯坦福大學 DAWNBench 正是在此背景下提出。

斯坦福 DAWNBench 是衡量端到端深度學習模型訓練和推理性能的國際權威基準測試平台,提供了一套通用的深度學習評價指標,用於評估不同優化策略、模型架構、軟體框架、雲和硬體上的訓練時間、訓練成本、推理延遲以及推理成本,吸引了谷歌、亞馬遜 AWS、fast.ai 等高水平隊伍參與,相應的排名反映了當前全球業界深度學習平台技術的領先性。

正是在這樣高手雲集的基準測試中,華為雲 ModelArts 第一次參加國際排名,便實現了更低成本、更快速度的體驗。

華為雲創造端到端全棧優化新紀錄:128 塊 GPU,10 分鐘訓練完ImageNet

為了達到更高的精度,通常深度學習所需數據量和模型都很大,訓練非常耗時。例如,在計算機視覺領域常用的經典 ImageNet 數據集(1000 個類別,共 128 萬張圖片)上,用 1 塊 P100 GPU 訓練一個 ResNet-50 模型, 耗時需要將近 1 周。這嚴重阻礙了深度學習應用的開發進度。因此,深度學習訓練加速一直是學術界和工業界所關注的重要問題,也是深度學習應用的主要痛點

曾任 Kaggle 總裁和首席科學家的澳大利亞數據科學家和企業家 Jeremy Howard,與其他幾位教授共同組建了 AI 初創公司 fast.ai,專註於深度學習加速。他們用 128 塊 V100 GPU,在上述 ImageNet 數據集上訓練 ResNet-50 模型,最短時間為 18 分鐘。

最近 BigGAN、NASNet、BERT 等模型的出現,預示著訓練更好精度的模型需要更強大的計算資源。可以預見,在未來隨著模型的增大、數據量的增加,深度學習訓練加速將變得會更加重要。

只有擁有端到端全棧的優化能力,才能使得深度學習的訓練性能做到極致。

華為雲 ModelArts 功能視圖

華為雲 ModelArts 是一站式的 AI 開發平台,已經服務於華為公司內部各大產品線的 AI 模型開發,幾年下來已經積累了跨場景、軟硬協同、端雲一體等多方位的優化經驗。

ModelArts 提供了自動學習、數據管理、開發管理、訓練管理、模型管理、推理服務管理、市場等多個模塊化的服務,使得不同層級的用戶都能夠很快地開發出自己的 AI 模型。

自研分散式通用加速框架 MoXing,性能再加速

為什麼 ModelArts 能在圖像識別的訓練時間上取得如此優異的成績?

答案是 「MoXing」。

在模型訓練部分,ModelArts 通過硬體、軟體和演算法協同優化來實現訓練加速。尤其在深度學習模型訓練方面,華為將分散式加速層抽象出來,形成一套通用框架——MoXing(「模型」 的拼音,意味著一切優化都圍繞模型展開)。

採用與 fast.ai 一樣的硬體、模型和訓練數據,ModelArts 可將訓練時長可縮短到 10 分鐘,創造了新的紀錄,為用戶節省 44% 的時間

MoXing 是華為雲 ModelArts 團隊自研的分散式訓練加速框架,它構建於開源的深度學習引擎 TensorFlow、MXNet、PyTorch、Keras 之上,使得這些計算引擎分散式性能更高,同時易用性更好。

華為雲 MoXing 架構圖

MoXing 內置了多種模型參數切分和聚合策略、分散式 SGD 優化演算法、級聯式混合併行技術、超參數自動調優演算法,並且在分散式訓練數據切分策略、數據讀取和預處理、分散式通信等多個方面做了優化,結合華為雲 Atlas 高性能伺服器,實現了硬體、軟體和演算法協同優化的分散式深度學習加速。

有了 MoXing 後,上層開發者可以聚焦業務模型,無需關注下層分散式相關的 API,只用根據實際業務定義輸入數據、模型以及相應的優化器即可,訓練腳本與運行環境(單機或者分散式)無關,上層業務代碼和分散式訓練引擎可以做到完全解耦。

用數據說話:從吞吐量和收斂時間看加速性能

深度學習加速屬於一個從底層硬體到上層計算引擎、再到更上層的分散式訓練框架及其優化演算法多方面協同優化的結果,具備全棧優化能力才能將用戶訓練成本降到最低。

在模型訓練這方面,華為雲 ModelArts 內置的 MoXing 框架使得深度學習模型訓練速度有了很大的提升。

下圖是華為雲團隊測試的模型收斂曲線(128 塊 V100 GPU,完成 ResNet50-on-ImageNet)。一般在 ImageNet 數據集上訓練 ResNet-50 模型,當 Top-5 精度≥93% 或者 Top-1 精度≥75% 時,即可認為模型收斂。

ResNet50-on-ImageNet 訓練收斂曲線(曲線上的精度為訓練集上的精度):(a) 所對應的模型在驗證集上 Top-1 精度≥75%,訓練耗時為 10 分 06 秒;(b) 所對應的模型在驗證集上 Top-5 精度≥93%,訓練耗時為 10 分 28 秒。

Top-1 和 Top-5 精度為訓練集上的精度,為了達到極致的訓練速度,訓練過程中採用了額外進程對模型進行驗證,最終驗證精度如下表所示(包含與 fast.ai 的對比)。

MoXing 與 fast.ai 的訓練結果對比

華為雲團隊介紹,衡量分散式深度學習框架加速性能時,主要看吞吐量和收斂時間。在與吞吐量和收斂時間相關的幾個關鍵指標上,團隊都做了精心處理:

  • 在數據讀取和預處理方面,MoXing 通過利用多級並發輸入流水線使得數據 IO 不會成為瓶頸;
  • 在模型計算方面,MoXing 對上層模型提供半精度和單精度組成的混合精度計算,通過自適應的尺度縮放減小由於精度計算帶來的損失;
  • 在超參調優方面,採用動態超參策略(如 momentum、batch size 等)使得模型收斂所需 epoch 個數降到最低;
  • 在底層優化方面,MoXing 與底層華為自研伺服器和通信計算庫相結合,使得分散式加速進一步提升

後續,華為雲 ModelArts 將進一步整合軟硬一體化的優勢,提供從晶元(Ascend)、伺服器(Atlas Server)、計算通信庫(CANN)到深度學習引擎(MindSpore)和分散式優化框架(MoXing)全棧優化的深度學習訓練平台。

ModelArts 會逐步集成更多的數據標註工具,擴大應用範圍,將繼續服務於智慧城市、智能製造、自動駕駛及其它新興業務場景,在公有雲上為用戶提供更普惠的 AI 服務。

目前華為雲 ModelArts 已經在公測中,歡迎點擊鏈接試用:

https://www.huaweicloud.com/product/modelarts.html?

www.huaweicloud.com


推薦閱讀:
查看原文 >>
相关文章