于北京时间2019年3月2日23:55分左右开始,监控发现华北2地域可用区C部分ECS实例及部分EMR、RDS、DTS、DBS实例及服务状态异常。经阿里云工程师紧急排查处理,于3月3日3:10恢复正常。初步判断原因是因为部分后端系统服务出现异常导致,详细原因待复盘确认。


北京时间2019年3月3号凌晨,我使用极客时间学习专栏的时候,极客时间APP各种报错无反应。随后网上消息传来,阿里云大规模出现瘫痪。我恍然大悟,原来极客时间背后用的也是阿里云。

此后阿里云公布,自从3月2号23点55分钟左右开始,华北2地域可用区C部分ECS实例出现IO HANG。通俗一点解释就是磁碟无响应。由于该地区对应的服务区主要是北京的客户。而北京又是互联网企业的聚集地,此次的事故造成的影响巨大,不言而喻。

此次阿里云的故障也导致了一系列的公司的运营运维被唤醒。大家都在努力的排除故障。包括自己的故障和不是自己的故障。但是从网上反映的信息来看,除了干等阿里云几个小时修复以外,建立在阿里云上的各个企业能做的非常有限。

这一方面说明了国内阿里云的确是占据了云厂商的主导地位,另外一方面也说明云的确如同水电一般。一旦出现故障,云故障的破坏力,和停水停电的破坏力,并没有什么太大的区别。

同样的事情在美国发生过一次。亚马逊AWS的存储服务S3,号称比本地硬碟要靠谱不知道多少倍的对象存储服务,因为一名码农操作失误,导致了大面积的服务中断。结果是美国半个互联网瘫了,从雅虎邮箱到StackOverflow,一时间哀鸿遍野。这是第一次让我这个普通的吃瓜群众感受到亚马逊的云服务在美国的影响力。

但是也正是这次之后,有能力的企业意识到不能把鸡蛋放在一个篮子里。很多企业选择了亚马逊和Azure,或者亚马逊和GCP(Google Cloud Platform)的双云方案。有些独立的SaaS服务提供商,之前都只拿AWS作为其资源池的,也改由两家云厂商来提供了。

当然,更有经验的企业早就知道单云的问题。比如说苹果公司的iCloud,一直以来都是选择两家云厂商一起来提供冗余备份服务的。这种做法在S3断服之后,变得越来越普遍。

从某种程度上看,亚马逊AWS的江湖地位是很牢固的。但是之前大家一直对亚马逊是不是会一骑绝尘把其他云厂商都干翻这个事情抱有某种程度的期望。S3断服事件以后,AWS的市场份额依旧领先,但是大部分人对于北美市场存在两到三家云服务场商已经没什么怀疑了。毕竟,即便用AWS,也需要有个备份。

有竞争肯定是好事情。S3断服对AWS不一定是个好事情,对北美市场的云生态,却是一个值得纪念的历史性事件。我一直在想,同样的事情在中国市场应该会出现。但是之前出现的一直都是腾讯云弄坏一个客户这样的鸡毛蒜皮的事情。今天阿里云大规模断服,无疑给广大的云用户厂商提了一个醒,云服务也是需要有备份的。

阿里云在中国就像AWS在北美一样,占据了巨大的市场份额。有多巨大对我们来说不够直观。这次阿里云一瘫,一堆堆的企业都冒出来叫唤,真的是非常的直观。

这个事件,对阿里云来说也许并不是一件好事情,因为这让很多企业意识到云厂商也是需要备份的。阿里云一家独大的可能性被大大压缩了。但是对华为云,腾讯云,中国电信天翼云们,都是好事情啊。对比美国云市场的发展,中国云市场阿里云一家独大的局面,也越来越难了。


噗,某些人快别无脑吹国外的云商靠谱了。百度随便找下比较知名的伺服器故障事件就知道了,没必要神话国外的厂商,某些人还是少带私货的好:

2017年1月31日,Gitlab 因误删除引起服务中断18小时,并且无法完全恢复。

2017年2月28日,亚马逊AWS因一条错误指令引起宕机,随后大部分互联网,包括Slack、Quora和Trello在内的很多企业平台停机了4个小时。

2017年3月16日,微软Azure公有云出现超过8小时的存储可用性问题。2017年9月14日,亚马逊AWS访问存储块出现问题,影响了S3存储服务,故障来源自2月故障的同一个地区。2017年9月29日,微软Azure数据中心在日常维护时意外启动灭火系统,导致公有云中的一些服务中断长达7个小时。2018年1月18日,谷歌自动化失效引起停运了93分钟。2018 年 3 月 2 日,亚马逊AWS 的网路服务出现问题,依赖 AWS 作为骨干网的应用受到影响,包括软体开发公司 Atlassian,云通讯公司 Twilio 等。2018年5 月 31 日,亚马逊AWS北弗吉尼亚地区数据中心出现硬体问题。2018 年 6 月 17 日至 18 日,因爱尔兰数据中心的恒温系统出现问题,微软 Azure 被高温影响导致存储和网路中断。2018 年 7 月 20 日,腾讯云云硬碟发生故障,导致某创业公司存放的数据全部丢失,并且不能恢复。2018 年 7 月 24 日,腾讯云的运营商光缆中断,运营商已经找到断点,正在连线中,主要受影响的为广州区域部分用户。

2018年9月4日,微软Azur数据中心遭雷劈故障。

所以嘛,自己做好容灾,这不是基本要求吗,而且说实话,上云出事儿还有的赔。自己搭伺服器,emmmmm,小公司你招的起技术人员吗?

私有云从业者 行业相关

不想撕 只说行业内的看法

有钱没钱,有了数据和业务安全,才有安心睡眠!

大企业有钱,基本都是私有云和专有云走起,数据在自己手,机房本地/专属物理隔离,然后自身运维能力/厂家运维服务跟得上,再加上私有云两地三中心或者私有云+公有云的多云备份,业务的高可用和数据的安全才是心里有底。

中小企业,可能没钱搭私有云,也可能没钱上多云策略保证业务高可用,但也至少要做多公有云的或公有云+本地存储的灾备。

现在国内公有云市场的问题是:

许多公有云的品牌宣传和公关做的很好,让大家以为自己的业务也能像淘宝、12306、春晚那样扛住极端情况。

但别忘了,这是一种幸存者偏差!是用N多不计成本的业务高可用资源和运维工程师堆出来的,很多都是上面下的死命令,出了问题,负责人就要卷铺盖走人的。(但腾讯云去年是真的不稳定……)

问题是,现在大部分公有云都是做互联网出身,对企业客户的服务其实还远远达不到应对重大事件/业务那般上心,出了问题客服可能直接甩你FAQ让你去查,甚至可能还把安全问题悄悄压下来(阿里云云效的客服,说的就是你!),而且收费还年年涨!所以,你是得不到真正的企业级水平服务的。

坦率说,选云这件事,务必要从自身的业务需求出发。混合云是未来,技术水平大家互有胜负,但服务水平才是核心。

至少从现在阿里云的这次事件来看,我还是对选择阿里云抱有怀疑态度的。因为不论怎么来看,它没有真正的B2B技术基因,大项目的交付能力好多也是合作伙伴来做,而且现在阿里云的生态政策也不稳定,合作伙伴们也容易军心不稳。而如果想要在服务上投入更多,会影响它的盈利目标(按照公开数据,去年阿里云也是亏损很大)。

所以,选云的时候,对阿里云还是观望著点好,多问问别人家,特别是考察考察服务水平。

毕竟,B2B的基因,不是一天就能构建的。


国内的云服务真的是难兄难弟,应该是自去年腾讯以来最大的一次事故了吧。现在应该有更多的人会选亚马逊了吧。虽然没有造成数据丢失,但是可以想像如果那些公司要是丢失数据的话,阿里云估计要唱凉凉了。最后提醒:数据千万条,备份第一条。数据不备份,丢失泪两行。


事情已经发生了,造成的损失尚且还未公布,在3月4日,阿里说已经开始准备赔偿了!

但是这个事情提醒大家一定要关注云安全问题!

特别是那些关键数据,一定要有备份,备份一定不要全部备份在云上。对于一般数据还是需要建立数据安全机制的。虽然这几年说我国云计算技术发展很快,也很成熟,但是很多中小企业,对数据安全管理上并不是很完善,在云化过程中,也大张旗鼓的进去了,这其中缺乏一些自有的安全机制和备份管理,在出现类似风险时,其损失还是很大的。

发布于 2019-03-04继续浏览内容知乎发现更大的世界打开Chrome继续子言子言一个谦虚的小产品怎么看阿里云伺服器于2019年3月2号23时宕机,导致众多网站瘫痪。比如www.12306.com??

www.zhihu.com图标

看这个


怎么看阿里云伺服器于2019年3月2号23时宕机,导致众多网站瘫痪。比如www.12306.com??

www.zhihu.com图标

看这个


只有我觉得阿里云的反应有点快么,深夜宕机,没多久就搞定了,然后大清早起来已经全部恢复了,我起床看同事发公告给我我才知道昨天晚上出事儿了。这点上我觉得阿里云作为大公司这个服务态度我是服气的。反应效率也的确没话说。想起自己以前公司的伺服器,日常宕机,偶尔可以用。所以小公司老老实实的上云才是正道,哪怕出事儿也有人帮你兜著。

以下为阿里云回应全文


推荐阅读:
相关文章