Kubernetes 預測性集群伸縮

作者｜高朋（科賽網後端研發工程師）

編輯｜ bot（才雲）

編者按：在這篇文章中，科賽網後端研發工程師高朋首先介紹了 Cluster Auto Scaler 的主要設計、功能和他們對 Cluster-Autoscaler 的一些改動，使得這個組件可以支持預測性伸縮。

Kubernetes 本身有很多方面的 scaling，包括 Pod 的垂直擴展和集群物理節點的擴展等。今天我想介紹的是 Cluster-Autoscaler 用於物理節點的擴展。如果大家經常關注 Kubernetes scaling 相關的一些 talk，應該會比較了解這一塊。我會先從子項開始，然後介紹我們怎麼做預測性擴展，談談在這個預測性擴展中我們嘗試過的一些演算法。

CA：一個按需伸縮物理資源的組件

Cluster-Autoscaler（CA）是一個在 Kubernetes 中做虛擬機節點擴展的組件，它可以幫你屏蔽掉資源的物理層需求。也就是說，當你申請的資源出現不足時，它會自動添加一個物理資源。

這樣的好處是不論你有多少台機器，你只需要關心自己用的 Pod，在容器層給用戶提供數據分析的工具和平台。當然，這也意味著我們面臨的用戶用量波動會很大，這就是為什麼我們需要這樣一個組件來做支撐，而不是一種靜態的技術。

Cluster-Autoscaler 主要由三個部分組成，第一個部分是 Predicate，主要負責確定一個 Pod 能否在某 Node 上調度，它的依據是 CPU、GPU 或者 memory。比如創建 Pod 時，它所需要的 GPU 和內存會被作為它能不能跑到 Node 上的判斷依據。

第二部分是 Priority。完成上一步後，如果我們發現有一些 Node 能滿足需求，那麼我們就要考慮一個新問題：該選用哪個 Node？這時的考慮情況也很多，比如 NodeSelector，或者更進一步的 NodeAffinity，或者在這個 Deployment 當中，它會盡量分散到不同的 Node 上。這就是 Priority 替我們考慮一些事情。

最後一部分 Scheduler 處理的就是當我們把 Node 排序以後，我們從中找出一個最合適的，然後把 Pod 放進去。之前我們提到，在 CA 中，Predicate 的一個作用是驗證是否需要新增新的機器，Scheduler 也有相似的作用。即便我們沒找到合適的 Node，沒有 Priority，Scheduler 也可以發揮作用。

CA 基於 Group 的能力，它可以根據需求在雲廠商上自動擴展物理節點，通過 API 獲取 Node Group 原信息，並知道 Node Group 里機器的型號，以此構造一個虛擬的 Node，比如說一個 4G 或 8G 的機器。一旦有了這些 Node 模板，那麼當我們手頭有一些的 Pending Pod 時，我們就可以嘗試用這些假的 Node Template 去配合一下，看它能不能調動上去。

下面我介紹一下 CA 的主體邏輯，它的處理對象就是無法調度的 Pending Pod，整個調度默認每 10 秒執行如下邏輯：

檢查集群中 Node Group 的健康狀態；
嘗試解決集群現有的錯誤，如果有節點長期沒有加入到集群中，嘗試刪除並且重試；
找到無法調度的 Pending Pod，如果 Pod 是剛創建的也會暫時過濾；
找到一個 Node Group，通過擴展一定數量的機器可以讓 Pending Pod 運行，Node 的模板從公有雲的 API 中獲取，這也是為什麼需要使用 Scheduler 的邏輯；
在模擬狀態下，確定選出的 Node Group 需要擴展的節點數量；
決定最佳的擴展策略（expander option），最便宜/最小/最大，執行真正的擴展動作；
查找低使用率（<50%，沒有無法遷移的 Pod，沒有無 RelipcaSet 的 Pod）的 Node；
刪除長時間保持上述狀態的 Node，默認 10 分鐘。