@三斗室談運維未來的發展方向——智能運維

本文來自@InfoQ 與饒琛琳（日誌易產品總監）的對話內容：

近年來運維技術飛速發展，運維團隊大多建設好了各種系統，虛擬化、容器化、持續集成等等。但是如何有效的利用這些系統最終實現站點的高可用、高性能、高可擴展？隨著智能化技術的發展，為瞭解決上述運維領域的問題，智能運維的呼聲越來越高。

在日誌易產品總監饒琛琳看來，目前國內智能運維發展還處於一個探索階段，要想儘快在智能運維領域有所突破，首先要主抓好監控系統和告警系統，並利用機器學習演算法進行快速監控和排障。饒琛琳，日誌易產品總監，曾任新浪微博系統架構師、大數據運維技術專家，從事運維 11 年，精通大規模互聯網性能優化，機器數據處理分析，監控和管理平臺的部署開發。

這裡，就將饒琛琳對智能運維的發展一些早期觀點和看法整理出來，和大家一起探討下運維未來的發展方向。

1、對當下國內運維領域現狀的看法

簡單來講，目前國內運維界在自動化方面已經達到了一定的水平，就現階段而言，自動化和監控兩部分還是有一定距離。例如，你拿到了監控類的報警，可能不清楚立馬去做哪一項自動化的部署。如果能把自動化和監控這兩部分有機的結合起來，運維的工作會運轉的更加順利。

2、移動端和微服務給運維工作帶來的挑戰

在 PC 端的時代，運維的很多工作受限於瀏覽器，運維人員拿不到用戶端真實的數據。這種狀況下，大家就會普遍採購一些第三方服務，嘗試獲取終端數據。而在移動端時期，我們都有自己的 IP，可以把一些採點的邏輯放在自己的 IP 裏，然後獲取到更準確、更真實的客戶數據。相對於挑戰來說，這其實是移動端帶來的好處。

微服務的出現給運維工作帶來一些難題。沒有出現微服務之前，運維人員在一臺或者兩三臺機器中就可以完成問題排查。出現微服務之後，這些問題可能拆到了好幾十個分散式的地方，各自的輸出，甚至啟停會很方便，你有可能遇到在找問題的時候混淆的情況。而解決這些麻煩就是需要智能運維。

3、在大數據時代，智能運維與數據之間、自動化運維之間有何關係

智能運維的理想狀態就是把運維工作的三大部分：監控、管理和故障定位，利用一些機器學習演算法的方法把它們有機結合起來。

在大數據時代，智能運維是基於大數據之上。目前看來，運維想要把監控、管理和故障定位這三部分有機結合起來，就不可避免的需要用到智能演算法，而體現智能演算法價值的一點就是：智能演算法需要大量的數據去做支撐。

自動化運維這幾年處在一個良性發展的狀態，包括像 Puppet 這種配置管理的自動化，像 Docker 這種部署的自動化。進一步的發展就是需要把這三部分融合起來。目前能夠把這三部分融合起來的辦法就是利用人工智慧的手段，最後達到一種智能運維的狀態。

4、智能運維當下的狀況及智能運維發展的預測

智能運維當下還是一個初步探索的階段。可以舉幾個時間數字，我所看到一個和智能運維相關的開源項目是在 2013 年，而我看到的第一個主動出來宣講和智能運維相關的應該是在 2015 年百度在一個大會上的宣講。然後大量的出現在宣講上有關智能運維的應該是在 16 年下半年。而這些宣講和我的一些宣講都還是說我們現在有這樣的思路，做了一些嘗試。而這些嘗試的效果還是需要大家去碰撞，看是否還有什麼更好的辦法，因為我們現在是用普通的機器學習演算法，還沒有用到像 AlphaGo 的深度神經網路這部分內容。轉變為智能運維是一個需要大量投入和學習的過程。

想儘快在智能運維領域有所突破，更實際一點的辦法就是主抓好監控系統和告警系統。傳統的 IT 運維需要管理大量的告警，極大地分散了企業的注意力，消耗運維人員大量的時間和創新力。想辦法能把一天收好幾千封告警這種狀況，高效地解決，把運維人員從紛繁複雜的告警和噪音中解脫出來。這是一個在眾多辦法中產生價值的第一步。

現在比較明確的是大家會朝著智能運維方向發展，並且智能運維的發展一定是一個長期演進的過程。

對於智能運維的發展預測，我的簡單看法如下：

第一步就是前面所說的，智能運維在告警系統上的價值，；

第二步就是智能地去判斷告警，而不是現在靠人力的經驗去設定一個閾值。設定告警閾值是一項耗時耗力的工作，需要運維人員在充分了解業務的前提下才能進行，還得考慮業務是不是平穩發展狀態，否則一兩周改動一次，運維工程師絕對是要發瘋的。

第三步是利用一些 NLP（自然語言處理），把故障報告、文本化的語言提煉出來去自動反饋到這個系統裏。這一點可能是更遙遠的一個設想，但是目前來看會是將來發展的一條道路。

更多內容，歡迎關注「日誌易」公眾號，獲取智能運維的更多方法、技能和案例。

@三斗室談運維未來的發展方向——智能運維

熱門新聞

週熱門

@三斗室 談運維未來的發展方向——智能運維

為什麼elasticsearch很適合日誌系統？在日誌方面相比與mysql的優勢是什麼？

漢得的運維顧問值得進去嗎？

IT運維人員遠程辦公如何保障系統穩定？

作為一名運維工程師(繁瑣又沒用的事情很多），如何在工作的時候還能提升自己?

駐場運維什麼都學不到，每天就是看場子，看看設備適度溫度，其他時間就閑著，該不該找其他工作？

網路運維和網路安全的區別是什麼？

政府駐場運維我該去嗎？

有一個運維攻城獅男朋友是一種怎樣的體驗？

運維的本質是什麼？

你從開始學習linux運維到能工作用了多久？

運維的核心能力有哪些？

各位大哥 桌面運維外包崗可以做嗎？

對於運維，應該怎樣學習hcia？

想系統的學習運維有什麼需要注意的？

都說運維7*24小時服務，您怎麼看？

熱門新聞

週熱門

@三斗室談運維未來的發展方向——智能運維

各位大哥桌面運維外包崗可以做嗎？