今天上午,无意识中看到广西移动出现重大故障的信息。主要查看了《2017年9月8日华为NNHSS09部分用户数据被删除故障报告》和一位技术人员写的分析材料。

说实话,越看压力越大,深感工作不易。从《故障报告》看,有很多方面值得借鉴:

1、处置。(1)要有严格的审批程序。对特别重要系统,要提升审批程序;(2)要实现脚本操作。事故中操作人员错误输入操作指令,是导致本次事件的主要原因。应该将操作写作操作脚本,现场直接执行脚本就可以了。(3)要有更明确的检查监督机制。事故中,应该有操作流程的,但缺乏监督检查机制,导致一错再错。要做到「一人处置一人检查」;(4)重要的操作应该有高手支持。说事故中的操作人员不是华为公司的技术人员,只是外包公司的技术人员,技术水平或责任心可能差了些。

2、高效协同处置。因为涉及用户数比较多,响应处置还是比较及时的。

3、舆情引导。注重了舆论引导。(1)拟定媒体应答口径;(2)微信和微博上发布公告;(3)与主流媒体主动沟通;(4)组织人员正面引导。

4、建立网路与业务常态化联合演练与应急响应机制。全面梳理涉及网路与业务联动的各类故障场景,针对每种故障场景制定有针对性的应对措施和恢复方案,定期开展联合演练,建立起快速反应机制,形成业务快速回复通道。

网上看到小枣君写的《本次广西移动重大故障到底是怎么回事》,其中几段话,深度赞同。

出故障的时候,客户凶神恶煞似的,站在你身后,就差把刀架在你脖子上;公司领导电话不断打到你这,催问处理进展;本地员工围在你身边,指望你力挽狂澜。。。那种压力,可谓酸爽。。。

没办法,这就是通信工程师的责任,你必须要足够小心、小心、再小心,仔细、仔细、再仔细。敲每个命令,点每个执行,就要认真确认。除此之外,只能祈祷自己技术够牛逼,经验够丰富。 干通信的,技术就是你的护身符,要想现场少流泪,只能平时多流汗。

最后那句话,我特别赞成。信息化人平时要多琢磨技术,力争早一点定位故障点,早一点处置。(图片来自互联网)

推荐阅读:

相关文章