隨著雲計算、 DevOps和 SRE的遍及,區塊鏈技術的發展,運維自動化和效率體系的不斷完善,運維已然成為驅動各大公司研發運維流程和理念變革的關鍵角色,運維人員關注的重點和麪臨的挑戰也更多的聚焦在穩定性、流程效率改進、性能優化、用戶體驗提升以及成本控制等層面。

在分散式架構體系下,穩定性保障是一個極為複雜體系建設過程,除穩定性外,每一個不同的階段都會有不同的挑戰。這個挑戰究竟何等兇猛?如何借鑒國內外優秀的實踐經驗?除了技術經驗外,思路和模式上又該怎樣轉變?

[新]【活動報名】TOP100 全球軟體案例研究峯會?

jinshuju.net
圖標

不妨和我們一起來TOP100summit看看!TOP100summit是科技界一年一度的案例研究峯會,每年甄選有學習價值的100個技術創新/研發管理實踐,分享他們在本年度最值得的總結、盤點的實踐啟示。希望本屆大會,可以解決當下運維同學們的迷思與困惑。

本屆峯會以「釋放AI生產力 讓組織向智能化演進」為開幕式主題,旨在推動企業在趨勢下擁抱AI、探索和思考AI帶來的力量。十八個主題專場,120個案例構成。技術主題將集中在:體驗設計、產品創新、運營增長、運維體系、DevOps&SRE、區塊鏈、「大前端」、AI驅動、人工智慧、架構演進、團隊管理....

今天,我們將給大家分享組委會歷經兩個月案例徵集,收集到的眾多來自海內外優秀的運維技術案例,受篇幅影響,小編挑選5個入圍的案例,先睹為快(排名不分先後)。

蘑菇街SRE&CRE體系建設實踐

趙成

美麗聯合 技術總監

資深DevOps和運維專家,專欄作家,著有《進化:運維技術變革與實踐探索》一書,騰訊雲TVP,現任美麗聯合集團技術總監。

案例簡述

隨著運維自動化和效率體系的不斷完善,運維關注的重點和麪臨的挑戰更多的聚焦在穩定性層面。近兩年,隨著Google SRE理念的傳播和落地,對於穩定性體系建設起到了非常好的引導示範作用。

本議題主要分享,蘑菇街在SRE實踐方面的經驗,以及蘑菇街業務整體搬遷上公有雲之後,與雲廠商之間的CRE體系建設實踐。

ROI

通過SRE和穩定性體系的建設,大大提升了對系統穩定性的把控程度,在3S體系的運作下,也極大的提升了與雲廠商的配合效率。

百度運維自動化向智能化的轉型之路

哈晶晶

百度 資深架構師

百度雲資深架構師,負責自動化運維平臺和智能運維解決方案的產品設計和架構研發,致力於AIOps在百度搜索、廣告、信息流、AI、雲等核心業務落地,同時,輸出百度運維理念、自動化運維產品、智能運維解決方案給行業客戶。

案例簡述

百度運維經歷了腳本&工具、自動化運維平臺、開放運維平臺階段,在2014年開始智能化運維的探索,並且圍繞可用性、成本和效率方向的運維目標在諸多運維場景落地。本次分享將以百度故障處理場景為例,介紹百度故障預防、故障發現、故障診斷和故障止損階段的AIOps實踐經驗,同時也會分享百度成熟的智能運維產品和解決方案。

ROI

AIOps的核心在於使用大數據和演算法變革運維模式,助力業務高速發展,持續提升高質、高效的運維能力,減少自身 dirty work,支撐運營能力提升,為服務增值。在故障發現場景,異常檢測演算法可減少監控管理的成本,提升監控管理的質量,提升運維人員的能力;在故障預防和故障止損場景,將人的經驗進行遷移,使用演算法實現智能決策和執行,提供高質量的故障攔截和止損能力,替代運維人員的能力;在較複雜的故障診斷場景中,通過指標關聯分析推薦故障的模塊和實例,實現智能輔助決策,增強運維人員的能力。

AIOps在社交平臺運維中的應用

李雄政

騰訊SNG社交網路運營部 運維小組負責人

15年系統開發、集成、運維工作經驗,曾任職於華為全球網路運維中心,主管運維平臺建設。現就職於騰訊SNG社交網路運營部,負責社交平臺業務運維管理。

案例簡述

本次案例將重點分享AIOps在騰訊SNG社交平臺產品中成本、效率、質量上的提升。

ROI

目前市面上看,AIOps的一股大潮非常洶湧,本案例給出在海量業務上落地的實踐。 決策樹、皮爾遜、頻繁項集、貝葉斯等理論在運維中的應用。

1、決策樹方法在質量和成本中的應用 – 助力成功率提升到99.99%,成本策略落地

2、LR、皮爾遜方法在容量評估、節假日準備上的應用,高效管理容量,容量評估從人肉、自動、準確率大幅提升

3、頻繁項集、貝葉斯等方法在告警收斂上的應用,快速發現根因

直播平臺的運維保障實踐

張觀石

虎牙 直播業務運維負責人

10餘年網站開發、架構、運維經驗;目前關注互聯網服務可靠性系統工程、運維平臺的規劃建設、網站高可用架構等方面;在音視頻傳輸質量評估、微服務運維方面積累了豐富的經驗。

案例簡述

本案例會講到虎牙是如何從0到1建立音視頻質量全鏈路監控、感知、保障,以及評估我們的質量。直播流程是從主播端->推流點->CDN轉推收流點->轉碼->分發->觀眾端(各省市、運營商、各種端),整個鏈路長、實時性要求高,環節多。

如何做全鏈路質量數據採集、上報、存儲、展示和告警;如何在直播過程中快速發現某條流的卡頓問題,快速修復直播故障,幫助我們從多個方面提升整個組織的效率;如何幫助提升直播平臺的音視頻的傳輸質量,提升主播和觀眾的觀看直播的體驗。

ROI

運維效率的提升,直播質量的提升

三七互娛故障追蹤和故障自愈系統

童傳江

三七互娛 運維開發負責人

三七互娛運維開發負責人 ,運維行業7年工作經驗,做過網路管理,做過應用運維,目前專註於運維開發,對於行業所要解決的質量、成本、效率、安全,有完整的交付和實踐經驗,愛好廣泛,熱衷於解決疑難問題和分享。

案例簡述

在實際運維過程中,因為業務系統越來越複雜,變更越來越頻繁,總是存在各種各樣監控未覆蓋或者以前未知的故障發生。如何構建一套全鏈路的故障追蹤和故障治癒系統,成了質量保證部門的剛需,通過行業標準化的paas平臺模式和Trace追蹤技術,從而實現整個架構的質量可控。

ROI

通過半年的開發,對整體業務的質量有了本質的提升。 整個paas和trace系統開發週期2人半年,系統上線後,中級以上故障平均處理時間從20分鐘,提升到5分鐘左右。

除以上5位老師外,更多運維場老師可戳官網瞭解。

TOP100SUMMIT全球軟體案例智庫 - 案例榜單?

www.top100summit.com
圖標
[新]【活動報名】TOP100 全球軟體案例研究峯會?

jinshuju.net
圖標

推薦閱讀:
相關文章