尋找 K8s 1.14 Release 裏的「蚌中之珠」

摘要： K8s 1.14 發布了，Release Note那麼長，我們該從何讀起？

本文由張磊、心貴、臨石、徙遠、衷源、潯鳴等同學聯合撰寫。

Kubernetes 1.14.0 Release 已經於3月25日正式發布。相信你也已經注意到，相比於1.13 和 1.12 版本，這次發布包含的重要變更非常多，其對應的 Release Note 的篇幅長度也創下了「新高」。

面對這樣一份「海量信息」的 Release Note，我們該如何從這份文檔裏進行高效的信息過濾和挖掘，幫助團隊更精準、快速的梳理出這次發布最主要的技術脈絡呢？

在本篇文章中，我們將 1.14 的Release Note 按照主題進行了重新歸納和梳理，按照類別對重要變更進行了技術剖析和討論。希望這種「分類解讀」的方式，能夠幫助大家更好的理解 1.14 這個發布的核心內容。

Windows Node 正式生產可用

隨著1.14的發布，Kubernetes 對windows節點的生產級支持無疑是一個重要的里程碑。具體來說，1.14 版本針對 Windows 做了大量增強；

Pod：Pod內支持readiness和liveness探針；支持進程隔離和volume共享的多容器Pod；Pod支持原生configmap和sercret；Pod支持emptyDir；支持對Pod進行資源配額等；但是像優雅刪除、Termination message、Privileged Containers、HugePages、Pod驅逐策略等部分特性還未在1.14版本提供；
Service：支持服務環境變數提供DNS解析；支持NodePort、ClusterIP、LoadBalancer、Headless service；暫不支持Pod的hostnetwork模式；
常規 Workload controller：RS、deployment、statefulset、daemonset、job、cronjob均支持windows容器；
除此之外，支持Pod和container維度的metrics、HPA、「kubectl exec」、調度搶佔、resource quotas、CNI 網路支持等多種特性讓windows workload更加雲原生；由於windows的特殊兼容性，目前 host OS的版本必須和容器鏡像OS版本一致，1.14版本支持win server 2019；未來版本中會考慮使用Hyper-V隔離機制來解決版本兼容性問題。

而伴隨著 Windows 容器的生態正在慢慢壯大，能夠在生產級別支持 Windows 節點的容器服務開始見諸各大雲廠商。阿里雲容器服務（ACK）近期已經推出了 Windows Container 的支持，提供了linux/windows應用混合部署的統一管理能力。

參見：Support for Windows Nodes is Graduating to Stable (#116 )

本地持久化數據卷（Local PV）正式可用

長期以來，能夠讓 Kubernetes 直接用宿主機的本地存儲設備（比如：本地 SSD 硬碟）來提供持久化數據卷（即：Local PV 功能），一直是社區裏非常強烈的一個訴求。這個原因很容易理解：相對於遠程存儲（網路存儲），Local PV 在時延性、易用性、穩定性和費用上具有獨特的優勢，尤其是對於相關特性比較敏感的應用，如資料庫應用和搜索引擎應用來說，有著重要的意義。

而在 1.14 中，Local PV 終於正式宣佈 GA，為雲上的持久化存儲選擇增加了一種重要的的可能。

不過，必須要明確的是，選擇使用 Local PV，也意味著用戶必須自己承擔一些潛在的風險，這包括：

目前社區的開源方案無法動態創建卷
調度器需要由額外的調度邏輯工作，以確保調度的節點可以分配出足夠的磁碟容量
容錯性差，如果pod正在運行的宿主機宕機或者磁碟發生異常，那麼它的持久化卷裏的信息可能丟失

第一個問題，可以通過比如阿里雲的 local-volume-provisioner 實現本地 SSD Nvme實例自動創建數據捲來解決，但對於容錯性和健壯性的問題，就是比較棘手的了。

參見：Durable Local Storage Management is Now GA (#121)

Pod 優先順序與搶佔機制穩定可用

Kubernetes 裏的任務優先順序（priority）和搶佔機制（preemption）的目的十分明確：保證高優先順序的任務可以在需要的時候通過搶佔低優先順序任務的方式得到運行。

這其中，優先順序定義了一個Pod在集羣中的重要程度，這個重要程度體現且僅體現在兩個地方：（1）高優先順序的Pod在調度階段更容易被優先調度（K8s採用隊列調度模型），注意這裡並不保證高優先順序Pod永遠被優先調度，實際影響調度順序的因素有很多；（2）在集羣整體負載較高時，如果出現高優先順序Pod無法被調度的情況（集羣中沒有滿足條件的Node供Pod運行），K8s會啟動搶佔機制，通過搶佔已經運行的低優先順序的Pod的方式，讓高優先順序的Pod可以運行起來。搶佔機制便是在這裡引入的。

搶佔機制指當調度器發現某個Pod（如Pod-A）無法在集羣中找到合適的節點部署時（所有節點Predicates全部失敗），會試圖通過刪除一些優先順序低於Pod-A的Pod來「騰出空間」部署Pod-A，這樣Pod-A就可以被調度了。這樣一個「看似簡單」的需求在分散式環境中實施起來有很多細節，例如：如何決定刪除哪個節點的哪些Pod、如何保證為Pod-A騰出的空間不被其它Pod佔用、如何保證Pod-A不被餓死（Starvation）、如何處理有親和性需求的Pod調度約束、是否需要支持跨節點Preemption以支持某些特定的約束（例如某Failure Domain的反親和約束）等等。這些內容，可以參見：Pod Priority and Preemption in Kubernetes (#564)

你一定要知道什麼是 Pod Ready++

在 1.14 版本之前，Kubernetes 判斷一個Pod是否Ready，就是檢查這個Pod的容器是否全部正常運行。但是這裡有個問題，那就是容器或者說裡面的主進程Ready，並不一定意味著這個應用副本就一定是就緒的。為了確認Pod確實可以正常可用，我們希望給它增加一些外部指標（比如，該 Pod 需要的 Service，DNS，存儲等服務全部就緒），來反應這個Pod是否「真正」Ready。

這個特性，就是1.14 裏一個叫做「Pod Readiness Gates」、也叫做 Pod Ready ++ 的特性。它為pod的「Ready 狀態」提供了一個非常強大的擴展點。需要注意的是，用戶需要編寫一個外部控制器（Controller）來為這個Pod Readiness Gates 欄位對應的指標設置值。

參見：Pod Ready++ (#580)

Kubernetes 原生應用管理能力

1.14之後，Kubernetes 項目本身開始具備了原生的應用管理能力，這其中最重要的一個功能，就是 Kustomize。

Kustomize 允許用戶從一個基礎 YAML 文件，通過 overlay 的方式生成最終部署應用所需的 YAML 文件，而不是像 Helm 那樣通過字元串替換的方式來直接修改基礎 YAML 文件（模板）。這樣，在一個用戶通過 overlay 生成新的 YAML 文件的同時，其他用戶可以完全不受影響的使用任何一個基礎 YAML 或者某一層生成出來的 YAML 。這使得每一個用戶，都可以通過 fork/modify/rebase 這樣 Git 風格的流程來管理海量的 YAML 文件。這種 PATCH 的思想跟 Docker 鏡像是非常類似的，它既規避了「字元串替換」對 YAML 文件的入侵，也不需要用戶學習蹩腳的 DSL 語法（比如 Lua）。

在1.14之後，Kustomize 已經成為了 kubectl 的一個內置命令。不難看到，Kubernetes 社區正在探索一種 Helm 之外的、更加 Kubernetes 原生的應用管理方法。具體效果如何，我們不妨拭目以待。

參見：Added Kustomize as a subcommand in kubectl (#73033, @Liujingfang1)

用戶友好度進一步提升

隨著大家對Kubernetes越來越熟悉，對kubectl依賴也越來越強烈，需求也越來越多樣化。而在 1.14 中，kubectl 著重在以下幾個方面，提升用戶體驗，加強對日常運維能力的支持。

之前 kubectl cp 操作每次只能 copy 一個文件，沒辦法使用通配符拷貝一批文件，非常不方便。在1.14中，螞蟻金服的工程師提交了一個拷貝操作的通配符功能，方便對容器中的文件進行操作。

參見：#72641

以往，用戶通常無法方便的知道自己被管理員通過 RBAC 配置的許可權到底有哪些。而從v1.14開始，用戶可以通過 kubectl auth can-i --list --namespace=ns1 來查看自己在 ns1 這個namespace下可以訪問哪些資源（比如Pod，Service等），並有哪些操作的許可權（比如Get，List，Patch，Delete等）了。

參見：#64820

Kubernetes 用戶需要刪除的API 資源，往往分散在多個namespace中，刪除非常不方便。在v1.14新版本中，用戶終於可以藉助於 kubectl delete xxx --all-namespaces 來進行統一的刪除操作了（這裡 XXX 可以是Pod，Services，Deployment，自定義的CRD等等），並且還可以配合 -l 和 --field-selector 可以更精確地刪除滿足特定條件的資源。

參見：#73716

穩定性進一步提升

和之前每個版本一樣，Kubernetes 的新版本發布對穩定性和可靠性增強的關注一直是重中之重，下面我們列舉出一些值得注意的修復和升級。

在做Pod驅逐時，會優先嘗試使用優雅刪除模式，而不是暴力刪除etcd內的Pod數據。這個修復能夠使被驅逐的 Pod更加優雅的退出。

參見：#72730

Kubelet要重建Pod的容器時，如果舊容器是unknown狀態，現在Kubelet會首先嘗試Stop容器。這避免了一個 Pod的同一個容器申明會有多個實例同時運行的風險。

參見：#73802

在大規模集羣中，節點因為個別Pod使用了大量磁碟 IO，可能會導致節點頻繁的在Ready/NotReady狀態之間變化。這種狀態會引起大規模的、不可預期的 Pod Eviction，導致線上故障。螞蟻金服的工程師針對 Docker 環境下的這個問題提交了修復，建議大家也排查一下其它運行時的集羣裏是否有同樣的問題。

參見：#74389

當 Kubelet在壓力較大情況下，可能會發生 Kubelet 的Pod 生命週期事件消費頻次弱於事件產生頻次，導致負責這個事件的 Channel 被佔滿，這種情況持續一段時間後會直接導致Kubelet 死鎖。阿里巴巴的工程師針對修這個問題提交了修復。

參見：#72709

大規模場景下的性能提升與優化

在 Kubernetes 的主幹功能日趨穩定之後，社區已經開始更多的關注大規模場景下 Kubernetes 項目會暴露出來的各種各樣的問題。在v1.14中，Kubernetes 社區從面向最終用戶的角度做出了很多優化，比如：

kubectl 在實現中會順序遍歷 APIServer暴露出的全部資源的Group/Version/Kind，直到查找到需要處理的資源。這種遍歷方式導致了用戶在大規模集羣下使用 kubectl 的性能體驗受到很大影響。在v1.14版本中，kubectl的順序遍歷行為終於改為了並行，極大地提升了kubectl的使用體驗（經過測試，性能指標提升了10倍以上）。

參見： #73345

在 1.14 中，APIServer 裏的一個重要變更，是對單次 PATCH 請求內容裏的操作個數做出了限制，不能超過10000個，否則就不處理此請求。這樣做的目的，是防止 APIServer 因為處理海量的甚至是惡意PATCH 請求導致整個集羣癱瘓。這也其實也是社區的 CVE-2019-1002100 主要的修復方法。

參見：#74000

Kubernetes 的 Aggregated API允許 k8s 的開發人員編寫一個自定義服務，並把這個服務註冊到k8s的 API 裡面像原生 API 一樣使用。在這個情況下，APIServer 需要將用戶自定義 API Spec 與原生的 API Spec 歸併起來，這是一個非常消耗CPU 的性能痛點。而在v1.14中，社區大大優化了這個操作的速率，極大地提升了APIServer 歸併 Spec 的性能（提升了不止十倍）。

參見：#71223

文中相關鏈接一覽

Release Note ：
https://github.com/kubernetes/kubernetes/blob/master/CHANGELOG-1.14.md#kubernetes-v114-release-notesSupport for Windows Nodes is Graduating to Stable (#116 )：

https://github.com/kubernetes/enhancements/issues/116
Durable Local Storage Management is Now GA (#121)：https://github.com/kubernetes/enhancements/issues/121#issuecomment-457396290Pod Priority and Preemption in Kubernetes (#564) ：https://github.com/kubernetes/enhancements/issues/564Pod Ready++ (#580) ：https://github.com/kubernetes/enhancements/issues/580Added Kustomize as a subcommand in kubectl (#73033, @Liujingfang1)：https://github.com/kubernetes/kubernetes/pull/73033https://github.com/Liujingfang1

用戶友好度：
72641：https://github.com/kubernetes/kubernetes/pull/7264164820：https://github.com/kubernetes/kubernetes/pull/6482073716：https://github.com/kubernetes/kubernetes/pull/73716穩定性：72730：https://github.com/kubernetes/kubernetes/pull/7273073802：https://github.com/kubernetes/kubernetes/pull/7380274389：https://github.com/kubernetes/kubernetes/pull/7438972709：https://github.com/kubernetes/kubernetes/pull/72709大規模場景下的性能提升與優化：

73345：https://github.com/kubernetes/kubernetes/pull/73345
74000：https://github.com/kubernetes/kubernetes/pull/7400071223：https://github.com/kubernetes/kubernetes/pull/71223

阿里雲和CNCF聯合開發推出的免費公開課，講解以Kubernetes主體的雲原生技術知識。一線技術專家精心打造，期待各位的學習反饋。更多課程信息可以一步：官宣|《CNCF x Alibaba 雲原生技術公開課》即將重磅上線

本文作者：木環

原文鏈接

更多技術乾貨敬請關注云棲社區知乎機構號：阿里云云棲社區 - 知乎

本文為雲棲社區原創內容，未經允許不得轉載。

尋找 K8s 1.14 Release 裏的「蚌中之珠」

Windows Node 正式生產可用

本地持久化數據卷（Local PV）正式可用

Pod 優先順序與搶佔機制穩定可用

你一定要知道什麼是 Pod Ready++

Kubernetes 原生應用管理能力

用戶友好度進一步提升

穩定性進一步提升

大規模場景下的性能提升與優化

文中相關鏈接一覽

熱門新聞

週熱門

尋找 K8s 1.14 Release 裏的「蚌中之珠」

Windows Node 正式生產可用

本地持久化數據卷（Local PV） 正式可用

Pod 優先順序與搶佔機制穩定可用

你一定要知道什麼是 Pod Ready++

Kubernetes 原生應用管理能力

用戶友好度進一步提升

穩定性進一步提升

大規模場景下的性能提升與優化

文中相關鏈接一覽

現在AMD1700和2600哪個性能比較強？

如何看待華為麒麟9000性能、功耗雙翻車？

買手機的時候怎麼挑到一部好的手機，看哪些參數？

什麼時候頂級手機性能能超過頂級電腦性能？

今天新出ipad pro2020為什麼價格降低？性能有提升嗎？

想換個高顏值性能好的手機，有沒有推薦的～？

如何看待榮耀10不開性能模式安兔兔跑分十萬，開性能模式十七萬？

如何讓RTX3080更好地發揮性能？

談談手機性能過剩的話題？

請大佬們看看我的手機性能怎麼樣，謝謝?

高刷能彌補性能的差距嗎?

主板的性能差距表現在哪裡？

同樣的模型與參數，PyTorch實現的性能比Tensorflow低了很多，有可能是什麼原因呢？

求3500左右價位、性能好、可用三四年的手機牌子分析推薦？

如何在本地搭建hadoop集羣？

熱門新聞

週熱門

本地持久化數據卷（Local PV）正式可用