於北京時間2019年3月2日23:55分左右開始,監控發現華北2地域可用區C部分ECS實例及部分EMR、RDS、DTS、DBS實例及服務狀態異常。經阿里雲工程師緊急排查處理,於3月3日3:10恢復正常。初步判斷原因是因為部分後端系統服務出現異常導致,詳細原因待復盤確認。


北京時間2019年3月3號凌晨,我使用極客時間學習專欄的時候,極客時間APP各種報錯無反應。隨後網上消息傳來,阿里雲大規模出現癱瘓。我恍然大悟,原來極客時間背後用的也是阿里雲。

此後阿里雲公佈,自從3月2號23點55分鐘左右開始,華北2地域可用區C部分ECS實例出現IO HANG。通俗一點解釋就是磁碟無響應。由於該地區對應的服務區主要是北京的客戶。而北京又是互聯網企業的聚集地,此次的事故造成的影響巨大,不言而喻。

此次阿里雲的故障也導致了一系列的公司的運營運維被喚醒。大家都在努力的排除故障。包括自己的故障和不是自己的故障。但是從網上反映的信息來看,除了乾等阿里雲幾個小時修復以外,建立在阿里雲上的各個企業能做的非常有限。

這一方面說明瞭國內阿里雲的確是佔據了雲廠商的主導地位,另外一方面也說明雲的確如同水電一般。一旦出現故障,雲故障的破壞力,和停水停電的破壞力,並沒有什麼太大的區別。

同樣的事情在美國發生過一次。亞馬遜AWS的存儲服務S3,號稱比本地硬碟要靠譜不知道多少倍的對象存儲服務,因為一名碼農操作失誤,導致了大面積的服務中斷。結果是美國半個互聯網癱了,從雅虎郵箱到StackOverflow,一時間哀鴻遍野。這是第一次讓我這個普通的喫瓜羣眾感受到亞馬遜的雲服務在美國的影響力。

但是也正是這次之後,有能力的企業意識到不能把雞蛋放在一個籃子裏。很多企業選擇了亞馬遜和Azure,或者亞馬遜和GCP(Google Cloud Platform)的雙雲方案。有些獨立的SaaS服務提供商,之前都只拿AWS作為其資源池的,也改由兩家雲廠商來提供了。

當然,更有經驗的企業早就知道單雲的問題。比如說蘋果公司的iCloud,一直以來都是選擇兩家雲廠商一起來提供冗餘備份服務的。這種做法在S3斷服之後,變得越來越普遍。

從某種程度上看,亞馬遜AWS的江湖地位是很牢固的。但是之前大家一直對亞馬遜是不是會一騎絕塵把其他雲廠商都幹翻這個事情抱有某種程度的期望。S3斷服事件以後,AWS的市場份額依舊領先,但是大部分人對於北美市場存在兩到三家雲服務場商已經沒什麼懷疑了。畢竟,即便用AWS,也需要有個備份。

有競爭肯定是好事情。S3斷服對AWS不一定是個好事情,對北美市場的雲生態,卻是一個值得紀唸的歷史性事件。我一直在想,同樣的事情在中國市場應該會出現。但是之前出現的一直都是騰訊雲弄壞一個客戶這樣的雞毛蒜皮的事情。今天阿里雲大規模斷服,無疑給廣大的雲用戶廠商提了一個醒,雲服務也是需要有備份的。

阿里雲在中國就像AWS在北美一樣,佔據了巨大的市場份額。有多巨大對我們來說不夠直觀。這次阿里雲一癱,一堆堆的企業都冒出來叫喚,真的是非常的直觀。

這個事件,對阿里雲來說也許並不是一件好事情,因為這讓很多企業意識到雲廠商也是需要備份的。阿里雲一家獨大的可能性被大大壓縮了。但是對華為雲,騰訊雲,中國電信天翼雲們,都是好事情啊。對比美國雲市場的發展,中國雲市場阿里雲一家獨大的局面,也越來越難了。


噗,某些人快別無腦吹國外的雲商靠譜了。百度隨便找下比較知名的伺服器故障事件就知道了,沒必要神話國外的廠商,某些人還是少帶私貨的好:

2017年1月31日,Gitlab 因誤刪除引起服務中斷18小時,並且無法完全恢復。

2017年2月28日,亞馬遜AWS因一條錯誤指令引起宕機,隨後大部分互聯網,包括Slack、Quora和Trello在內的很多企業平臺停機了4個小時。

2017年3月16日,微軟Azure公有雲出現超過8小時的存儲可用性問題。2017年9月14日,亞馬遜AWS訪問存儲塊出現問題,影響了S3存儲服務,故障來源自2月故障的同一個地區。2017年9月29日,微軟Azure數據中心在日常維護時意外啟動滅火系統,導致公有雲中的一些服務中斷長達7個小時。2018年1月18日,谷歌自動化失效引起停運了93分鐘。2018 年 3 月 2 日,亞馬遜AWS 的網路服務出現問題,依賴 AWS 作為骨幹網的應用受到影響,包括軟體開發公司 Atlassian,雲通訊公司 Twilio 等。2018年5 月 31 日,亞馬遜AWS北弗吉尼亞地區數據中心出現硬體問題。2018 年 6 月 17 日至 18 日,因愛爾蘭數據中心的恆溫系統出現問題,微軟 Azure 被高溫影響導致存儲和網路中斷。2018 年 7 月 20 日,騰訊云云硬碟發生故障,導致某創業公司存放的數據全部丟失,並且不能恢復。2018 年 7 月 24 日,騰訊雲的運營商光纜中斷,運營商已經找到斷點,正在連線中,主要受影響的為廣州區域部分用戶。

2018年9月4日,微軟Azur數據中心遭雷劈故障。

所以嘛,自己做好容災,這不是基本要求嗎,而且說實話,上雲出事兒還有的賠。自己搭伺服器,emmmmm,小公司你招的起技術人員嗎?

私有雲從業者 行業相關

不想撕 只說行業內的看法

有錢沒錢,有了數據和業務安全,纔有安心睡眠!

大企業有錢,基本都是私有雲和專有雲走起,數據在自己手,機房本地/專屬物理隔離,然後自身運維能力/廠家運維服務跟得上,再加上私有雲兩地三中心或者私有雲+公有雲的多雲備份,業務的高可用和數據的安全才是心裡有底。

中小企業,可能沒錢搭私有雲,也可能沒錢上多雲策略保證業務高可用,但也至少要做多公有雲的或公有雲+本地存儲的災備。

現在國內公有雲市場的問題是:

許多公有雲的品牌宣傳和公關做的很好,讓大家以為自己的業務也能像淘寶、12306、春晚那樣扛住極端情況。

但別忘了,這是一種倖存者偏差!是用N多不計成本的業務高可用資源和運維工程師堆出來的,很多都是上面下的死命令,出了問題,負責人就要捲鋪蓋走人的。(但騰訊雲去年是真的不穩定……)

問題是,現在大部分公有雲都是做互聯網出身,對企業客戶的服務其實還遠遠達不到應對重大事件/業務那般上心,出了問題客服可能直接甩你FAQ讓你去查,甚至可能還把安全問題悄悄壓下來(阿里云云效的客服,說的就是你!),而且收費還年年漲!所以,你是得不到真正的企業級水平服務的。

坦率說,選雲這件事,務必要從自身的業務需求出發。混合雲是未來,技術水平大家互有勝負,但服務水平纔是核心。

至少從現在阿里雲的這次事件來看,我還是對選擇阿里雲抱有懷疑態度的。因為不論怎麼來看,它沒有真正的B2B技術基因,大項目的交付能力好多也是合作夥伴來做,而且現在阿里雲的生態政策也不穩定,合作夥伴們也容易軍心不穩。而如果想要在服務上投入更多,會影響它的盈利目標(按照公開數據,去年阿里雲也是虧損很大)。

所以,選雲的時候,對阿里雲還是觀望著點好,多問問別人家,特別是考察考察服務水平。

畢竟,B2B的基因,不是一天就能構建的。


國內的雲服務真的是難兄難弟,應該是自去年騰訊以來最大的一次事故了吧。現在應該有更多的人會選亞馬遜了吧。雖然沒有造成數據丟失,但是可以想像如果那些公司要是丟失數據的話,阿里雲估計要唱涼涼了。最後提醒:數據千萬條,備份第一條。數據不備份,丟失淚兩行。


事情已經發生了,造成的損失尚且還未公佈,在3月4日,阿里說已經開始準備賠償了!

但是這個事情提醒大家一定要關注云安全問題!

特別是那些關鍵數據,一定要有備份,備份一定不要全部備份在雲上。對於一般數據還是需要建立數據安全機制的。雖然這幾年說我國雲計算技術發展很快,也很成熟,但是很多中小企業,對數據安全管理上並不是很完善,在雲化過程中,也大張旗鼓的進去了,這其中缺乏一些自有的安全機制和備份管理,在出現類似風險時,其損失還是很大的。

發佈於 2019-03-04繼續瀏覽內容知乎發現更大的世界打開Chrome繼續子言子言一個謙虛的小產品怎麼看阿里雲伺服器於2019年3月2號23時宕機,導致眾多網站癱瘓。比如www.12306.com??

www.zhihu.com圖標

看這個


怎麼看阿里雲伺服器於2019年3月2號23時宕機,導致眾多網站癱瘓。比如www.12306.com??

www.zhihu.com圖標

看這個


只有我覺得阿里雲的反應有點快麼,深夜宕機,沒多久就搞定了,然後大清早起來已經全部恢復了,我起牀看同事發公告給我我才知道昨天晚上出事兒了。這點上我覺得阿里雲作為大公司這個服務態度我是服氣的。反應效率也的確沒話說。想起自己以前公司的伺服器,日常宕機,偶爾可以用。所以小公司老老實實的上雲纔是正道,哪怕出事兒也有人幫你兜著。

以下為阿里雲回應全文


推薦閱讀:
相關文章