3 月 23 日 16 時左右,騰訊服務器發生了大規模宕機,有網友發微博稱旗下《王者榮耀》、《刺激戰場》等多款熱門遊戲和網絡服務產品“集體陣亡”。


騰訊雲詳解宕機故障:光纖挖斷後的150秒


除了騰訊系手游出現問題,比如王者榮耀、奇蹟暖暖、掌盟、紅警等等登錄不了,微信、QQ、QQ 音樂全民 K 歌等服務也受到波及。


騰訊雲詳解宕機故障:光纖挖斷後的150秒


騰訊雲詳解宕機故障:光纖挖斷後的150秒


騰訊雲詳解宕機故障:光纖挖斷後的150秒


騰訊雲詳解宕機故障:光纖挖斷後的150秒


騰訊雲詳解宕機故障:光纖挖斷後的150秒


騰訊雲詳解宕機故障:光纖挖斷後的150秒


騰訊雲詳解宕機故障:光纖挖斷後的150秒


騰訊雲詳解宕機故障:光纖挖斷後的150秒


騰訊雲詳解宕機故障:光纖挖斷後的150秒


騰訊雲詳解宕機故障:光纖挖斷後的150秒


@騰訊遊戲在當日 16 時做出了迴應,稱本次崩潰是因上海當地網絡運營商的光纖線路大面積故障,使得騰訊遊戲及外部多個網絡應用的使用均受到影響。目前運營商正在緊急搶修中,公司也正在積極做容災處理,業務陸續恢復中。


騰訊雲詳解宕機故障:光纖挖斷後的150秒


晚上 19 點 54 分,騰訊迴應已基本修復,各業務基本正常運行。類目太多未公佈各類遊戲補償獎勵。


騰訊雲詳解宕機故障:光纖挖斷後的150秒


據騰訊 2018 年財報顯示,全年遊戲營收 1284 億,覈算停止營運 4 個小時,粗略損失 5800 多萬收入;而這 4 個小時其他運營成本沒有減少。

此事也被當地電視新聞當晚報道,未披露施工方信息,目前還沒有相關單位發聲明對此事負責。


騰訊雲詳解宕機故障:光纖挖斷後的150秒


3 月初,阿里雲出現大規模宕機故障,華北地區很多互聯網公司都受波及,一大波程序員、運維專員都從睡夢中被叫醒跑去辦公室幹活。

對此,阿里雲官方迴應稱,宕機原因爲:華北 2 地域可用區 C 部分 ECS 服務器等實例出現 IO HANG,後經緊急排查處理後逐步恢復。


騰訊雲詳解宕機故障:光纖挖斷後的150秒



騰訊雲詳解宕機故障:光纖挖斷後的150秒


3 月 20 日淘寶、天貓、淘寶直播、閒魚等 App 崩潰,緊接着 12306 也躺槍。這次騰訊光纖又被挖,AT 兩大巨頭僅時隔三天。

對此次事故,有網民評價道:“上次是蕭山拔阿里網線,這次是上海拔企鵝的網線!什麼互聯網+大數據,終究幹不過傳統工業的一鏟子。”

接下來,我們來看看騰訊雲在光纖被挖斷後的 150 秒到底發生了什麼?

光纖挖斷後的 150 秒

上週末的這起光纖中斷事故引發了一場聲勢浩大的斷網危機。在雲服務越來越普及的今天,如何在面對網絡故障的情況下,儘可能保證服務的穩定性和連續性,是所有企業都需要重視的問題。

智能化流量調度系統大顯身手

當天下午,騰訊雲網絡監控平臺監測到上海到浙江電信出現小範圍公網質量下降。

騰訊雲隨即啓動流量智能調度系統,將上海地區公網流量通過騰訊雲內部 T 級骨幹網,引導至騰訊雲廣州區電信出口,再由電信骨幹網直達浙江電信。

“ 這項技術的厲害之處在於,即使遇到運營商的光纖故障,這套調度系統能夠根據需要自動繞過故障點,從而第一時間恢復公網用戶的網絡覆蓋。”

—— 騰訊雲工程師 kris

正常來說,如果沒有這套流量調度系統,只能被動的等待運營商來完成修復,這樣的結果是可能需要更長的時間。

從架構上看,騰訊雲公網流量智能調度系統:

  • 一方面通過接口自動執行並反饋管理臺下發的各種調度和控制信息。
  • 另一方面和公網出口設備建立 BGP(公網路由協議)連接,通過採集設備路由信息,根據調度需求向不同路由設備下發流量調度命令,從而實現領先的公網自動化流量工程技術。

最終結果是,此次光纖故障,騰訊雲從發現到恢復故障,全程只有 2 分鐘(抖動時間:14:40:15-14:42:45),並且所有流程自動化執行,在短短 150 秒之內就快速恢復了網絡,企業運維人員幾乎無任何感知。

“四纖三路由”高冗餘架構

能否做到上述效果與騰訊雲自身高度冗餘的網絡架構以及智能自愈機制有很大關係。

首先,騰訊雲在基礎設施的高可用方案爲網絡的平穩運營提供了重要前提和支撐。

騰訊雲目前在每個區域,例如上海南匯,引入並劃分了多個可用區,可用區之間提供可靠的風火水電物理全隔離。

同時又妥善考量了各個可用區之間的網絡低延遲,這就從基礎設施層面有效保證了用戶的網絡高可用性和穩定性。

另外,從架構層面看,此次光纖故障,騰訊雲網絡能夠在極短時間內自動恢復,一個重要原因要歸功於它可用區之間互聯的底層網絡,這套網絡採用了運營商級“四纖三路由”的高冗餘架構設計。

什麼意思呢?通俗一點來說就是騰訊雲每個可用區與可用區之間都採用 3 條獨立光纖連接(分別來自不同方向),並同時接入兩套完全物理分離的波分系統,從而有效保障光纖意外中斷時,能夠在 50 毫秒級自動切換。


騰訊雲詳解宕機故障:光纖挖斷後的150秒


騰訊雲四纖三路由高度冗餘架構

除此之外,騰訊雲波分系統中部署有光時域反射儀,在產生光纜中斷時,系統可以主動探測光纜具體中斷情況,第一時間精準定位光纜中斷的具體位置,並及時反饋給運營商,爲此次光纜的順利修復提供非常準確的信息。

相關文章