近日,社交媒体流传着一条消息,有不少客户反映,阿里云9月1日出现大规模故障,客户的所有基本命令都不能运行。9月3日凌晨,阿里巴巴资深总监、阿里云云盾的负责人吴翰清(网名:道哥、刺)在微信上发文,道出了整个事故发生的始末。
故障源于程序员写错了一行代码
首先,吴翰清在文章中承认,阿里云的确发生了故障。“在9月1日,我经历了非常难忘的一天。阿里云云盾的安骑士产品升级触发bug导致了用户ECS里的部分正常文件被误隔离。故障恢复期间,不断有朋友问我,阿里云所有客服也都忙于处理这个问题。而我,是云盾的负责人。”
而对于人们最关心的事故原因,吴翰清也给出了明确的答案,简单来说,就是程序员写错了一行代码。“这次的故障是由于工程师粗心大意写错了一行代码,从而将所有新启动的可执行文件都当成了恶意文件进行隔离。由于我们之前在设计上的缺失,对这一特殊的异常情况缺乏快速恢复的机制,只能临时写程序进行紧急恢复,因此整个故障持续了较长的时间。”
而对于事故可能造成的后遗症,吴翰清在文中请大家放心,“这次故障不会造成任何数据丢失,更不会如某些谣言所说会造成数据泄露。”
阿里云提出赔偿计划,包括负荆请罪
为了安抚客户,在这次故障恢复后,阿里云已经立即启动了百倍时间赔偿的计划。吴翰清在文章中表示,还将对客户给予更多的补偿,包括:
1.对于本次故障受到影响的客户,我们会赠予一批云盾付费产品,包括:弹性安全网络、态势感知、安骑士云托管。我们会在近期拟定方案并开通服务,客户也可以选择不使用。
2.安骑士将尽快提供方便快捷的一键关闭功能。
3.我们会给受影响的客户写一封手写的道歉信。
4.对于影响较大的客户,我们会即刻出发登门拜访负荆请罪,直面你的怒火和建议。
互联网的不安全,超出你的想象
毕业于西安交大少年班的吴翰清是中国互联网安全领域最具影响力的人物之一,也是阿里巴巴集团最年轻的高级安全专家。经历了这次事故,吴翰清也不禁感叹:“互联网的不安全,超出你的想象。”
事实上,近些年来,云服务商的宕机事故并不少见。阿里云也积极参加了我国可信云认证,并获得首批可信云服务认证。然而,宕机事故的发生,还是让人们看到,网络安全仍需要更多的努力。
吴翰清在文章中写到,“我一直在团队内部倡导和强调的文化是「透明」。我希望每个人的工作都能透明出来,所以我们会在墙上贴出云盾看板,透明出每个团队做的工作和进度,让所有路过的人能够看到;我希望我们的产品能够变得更加的透明一些,把产品做的所有事情透明给用户,特别是一些需要用户授权和允许的操作。在这一点上,过去做的不够好,我们正在努力改变。这次安骑士误隔离用户的正常文件所涉及的功能,在设计上是一个用户可选的功能,但却因为bug配置上了其他用户,这也是一个非常严重的失误。”
关于信任问题的质疑
在这次事故发生后,有很多人质疑,阿里云身为云计算服务商,为什么可以删除客户服务器里的文件?
对此,吴翰清解释到,这与阿里云的安全模式有关。“中国的IT行业,和美国的IT行业有着非常大的区别。在美国,IDC里有着各种成熟的IT解决方案以及商业化产品,美国的企业安全市场付费能力也非常的强,因此美国的安全市场已经相对比较成熟了。”
“AWS在客户安全的态度上采取的是一种共担模式,即AWS只对它作为云计算平台本身的安全负责,而选择把客户的安全交给第三方安全厂商。”
“而在中国,大量的中小企业客户实际上处于一个裸奔状态,他们的安全需求往往得不到满足。在这样的市场环境下,为了更好的培育云计算市场,让客户能够把更多的精力聚焦在自己的业务上,我们在云计算解决方案里集成了自主研发的安全产品,希望能够将阿里多年在安全技术上积累的经验,分享给所有阿里云的客户,这就是云盾的一系列产品。”