大咖專欄｜基於數據中心集群資源的深度學習工作負載統一框架

各位知友大家好，從今天開始，戴爾科技集團在知乎的《AIoT時代下的數據資產》專欄就正式上線啦（鼓掌撒花??????）。在接下來的每個周三，我們都將為大家帶來前沿科技領域的乾貨文章，劃重點，乾貨！

這麼有信心？沒錯！因為這些文章由戴爾易安信中國研發中心的專家們親自撰寫，他們長期從事著AI、Iot以及數據存儲等領域的一線研發工作，對於當下和未來的科技發展態勢有著深刻的見解。

歡迎大家關注本專欄，如果您有疑問或建議，歡迎在下方留言。每周三，我們不見不散~

基於數據中心集群資源的深度學習工作負載統一框架

作者/戴爾易安信中國研發中心李三平

摘要

分散式深度學習應用往往需要用戶在運行環境的多節點部署和可擴展性上投入大量時間與精力，而基於數據中心集群資源的深度學習工作負載的統一支持框架，主要目的是實現深度學習工作負載在數據中心資源池上的自動化部署與執行，從而幫助用戶將更多注意力集中在商業邏輯和深度學習問題本身。

基於數據中心集群資源的深度學習工作負載統一支持框架的構成組件與工作流程如圖 1所示。