KubeCon China 2019 於北京時間 2019 年 6 月 24 號到 26 號在中國上海舉辦。Linus 也來到了上海,在會議上進行了一次座談會,上次 LinuxCon 的時候也是類似的形式,似乎 Linus 對座談會的形式更加喜愛。

KubeCon China 2019 有很多乾貨滿滿的分享,這裡針對其中的一些個人比較感興趣的 Talk 做一些梳理。

使用 Kubeflow 進行超參數調優 - Richard Liu,Google;Johnu George, Cisco

這一 Talk 是 Google 的高級工程師 Richard Liu 以及思科的技術 Lead Johnu 一起分享的。他們主要介紹了 Kubeflow 社區中的一個開源項目 katib。這一項目是由 Caicloud,Cisco,Google,IBM 和 NTT Japan 的貢獻者一起維護的,Kubernetes Native 的 AutoML 系統。其 Slides 可以在此處觀看。

這一系統是利用 Kubernetes CustomResourceDefinition 這一特性,實現了一組 CRD。通過這一組 CRD 以及 Kubeflow 社區中的其他支持性的 CRD(如 TFJob,PyTorchJob 等)配合,可以支持用戶在 Kubernetes 上並行地進行超參數訓練(Hyperparameter Tuning)以及模型結構搜索(Neural Architecture Search)。相比於其他的自動機器學習系統,katib 受 Google Vizier 啟發,基於 Kubernetes 構建,從架構上支持大規模並行的搜索任務。目前這一系統也仍在積極地開發中,後續維護團隊會加強其穩定性和擴展性,支持不同的資料庫存儲後端,以及更多高級的 AutoML 功能(如自動模型壓縮,基於梯度下降的神經網路結構搜索演算法等)。

Knative Serving 內部介紹 - Dominik Tornow,SAP;Andrew Chen,Google

這一 Talk 是由 SAP Principal Engineer Dominik Tornow,以及 Google 開源策略項目經理 Andrew Chen 貢獻的。他們主要介紹了 KNative Serving 的功能和部分實現。KNative 是由谷歌開源的,支持在 Kubernetes 上運行 Serverless 工作負載的系統。而 KNative Serving 是其中用來支持部署和服務 Serverless 應用的組件。它是構建在 Istio 之上的,但是對 Istio 提供的功能進行了更高層次的抽象。這一 Talk 最大的特色是 Slides 製作精良,加入了很多動畫方便聽眾理解。但在網站上提供只能提供 PDF,所以有些遺憾。。

Kubernetes 集群的大規模分散式深度學習 - Yuan Tang,螞蟻金服;Yong Tang,MobileIron

這一分享的主講人之一是螞蟻金服的 Yuan Tang,他是 TensorFlow,MXNet,XGBoost 三個開源項目的 Committer,同時也是 Kubeflow 社區一些開源項目的維護者。另一位主講人是 TensorFlow SIG I/O lead Yong Tang,同時他也是 CoreDNS 和 Docker/Moby 社區的一些項目的維護者。由於某些原因,Yuan Tang 並沒有到來上海,因此這一場 Talk 是 Yong Tang 一人進行的。

在這場分享中,首先 Yong Tang 先生介紹了 TensorFlow,Horovod 等不同框架支持的不同的分散式訓練的模式,以及他們的優劣。隨後介紹了 Kubeflow 社區中的一些項目(tf-operator,pytorch-operator,mxnet-operator,mpi-operator 等),這些項目可以支持在 Kubernetes 上利用不同框架,進行不同分散式模型的分散式訓練任務。最後 Yong Tang 先生認為在 Kubernetes 上運行分散式訓練可以充分利用 Kubernetes 自身的資源管理能力,值得一試。

最大限度地降低在 Kubernetes 上運行深度學習的 GPU 成本 - Kai Zhang 和 Yang Che,阿里巴巴

這一分享主要介紹了阿里容器雲服務下的開源項目 gpushare-scheduler-extender 的需求和實現。兩位講者也是 Kubeflow 社區中 CLI 項目的維護者。

GPU 在推理服務中的共享越來越成為一個工業界關注的焦點。目前在 Kubernetes 上的 GPU 共享有不同的解決方案,阿里雲服務開源的這一實現藉助了諸多 Kubernetes 提供的擴展機制,如 CRD,Device Plugin,Scheduler Extender 和 kubectl 插件等,無侵入地實現了 GPU 顯存共享的特性。除此之外,才雲科技也有一個類似的閉源實現,也可供參考。

推薦閱讀:

相关文章