今天上午,無意識中看到廣西移動出現重大故障的信息。主要查看了《2017年9月8日華為NNHSS09部分用戶數據被刪除故障報告》和一位技術人員寫的分析材料。

說實話,越看壓力越大,深感工作不易。從《故障報告》看,有很多方面值得借鑒:

1、處置。(1)要有嚴格的審批程序。對特別重要系統,要提升審批程序;(2)要實現腳本操作。事故中操作人員錯誤輸入操作指令,是導致本次事件的主要原因。應該將操作寫作操作腳本,現場直接執行腳本就可以了。(3)要有更明確的檢查監督機制。事故中,應該有操作流程的,但缺乏監督檢查機制,導致一錯再錯。要做到「一人處置一人檢查」;(4)重要的操作應該有高手支持。說事故中的操作人員不是華為公司的技術人員,只是外包公司的技術人員,技術水平或責任心可能差了些。

2、高效協同處置。因為涉及用戶數比較多,響應處置還是比較及時的。

3、輿情引導。注重了輿論引導。(1)擬定媒體應答口徑;(2)微信和微博上發布公告;(3)與主流媒體主動溝通;(4)組織人員正面引導。

4、建立網路與業務常態化聯合演練與應急響應機制。全面梳理涉及網路與業務聯動的各類故障場景,針對每種故障場景制定有針對性的應對措施和恢復方案,定期開展聯合演練,建立起快速反應機制,形成業務快速回復通道。

網上看到小棗君寫的《本次廣西移動重大故障到底是怎麼回事》,其中幾段話,深度贊同。

出故障的時候,客戶凶神惡煞似的,站在你身後,就差把刀架在你脖子上;公司領導電話不斷打到你這,催問處理進展;本地員工圍在你身邊,指望你力挽狂瀾。。。那種壓力,可謂酸爽。。。

沒辦法,這就是通信工程師的責任,你必須要足夠小心、小心、再小心,仔細、仔細、再仔細。敲每個命令,點每個執行,就要認真確認。除此之外,只能祈禱自己技術夠牛逼,經驗夠豐富。 干通信的,技術就是你的護身符,要想現場少流淚,只能平時多流汗。

最後那句話,我特別贊成。信息化人平時要多琢磨技術,力爭早一點定位故障點,早一點處置。(圖片來自互聯網)

推薦閱讀:

相关文章