网络故障并不是谷歌云平台中断服务的唯一因素
日前,谷歌公司主要的公共云因为产生bug而深陷麻烦之中,谷歌云平台因此全线中断18分钟,而有些用户对此反应强烈,谷歌云平台安全性和可靠性遭到了人们的质疑。
4月11日晚上7点,全球所有地区的用户访问谷歌计算引擎的连接中断了18分钟。据悉,谷歌的云平台中断的原因是一个网络故障,而这一事故导致谷歌公司网络连接永不中断的形象受损,让一些企业客户对其失去信心。
网络似乎是谷歌公司的阿喀琉斯之踵,网络层是导致大部分云中断面临的一个共同问题。调查分析机构Gartner公司副总裁兼著名分析师丽迪雅?列隆说。而这次不同的是,这不只是影响一个可用性区域,而是所有地区。
“最重要的是客户期望拥有多个可用性区域,以此对服务中断实施合理的保护,然而没想到,所有的区域服务全部中断。”列隆说。
而在业界也有类似的事情发生,亚马逊公司的服务虽然遭受区域性的中断,但却避免了其整个平台的中断。微软Azure已有几次全球的停机事故,其中包括2014年底一个重大的中断事故,但是2015年没有重复这一场景。
CloudHarmony公司(已被Gartner收购)创始人贾森?瑞德表示,在其记忆中,主要的公共云供应商在所有地区发生的服务中断事故很少见,这应该是第一次。瑞德所在的公司从2010年就开始监测各个云平台的正常运行时间情况。
谷歌公司对此表示也采取了一些安全防护措施。但也许他们应该已经实施了更多的测试,以确保这一类型的故障可以被阻止,瑞德说。
瑞德表示,这听起来像是在理论上他们已经采取措施来防止这种事情发生,但是这些措施都失败了。
谷歌公司拒绝就此进行评论
列隆表示,谷歌公司和微软公司在将其业务大规模迁移到他们的公共云之前,他们已经根据自己的需要,建设了一些与众不同的的数据中心。“用户需要不同程度的冗余,并对细节的关注程度不同,完成这些需要时间。”列隆说。
谷歌云平台市场份额相对较小,其应用程序数量也较少,因此,谷歌云停运可能对一些公司来说不是一个主要问题。列隆表示,一些谷歌的客户很可能对这个事件已经被忽视,除非他们在那些18分钟内在进行数据传输,因为很多公司的业务都是批处理计算,这并不需要大量的交互流量与更大的空间。
据谷歌公司高管本杰明?特雷诺斯洛斯在云计算状态网页上发布的消息,谷歌公司已经采取措施防止再次发生,并审查现有的系统和增加新的保障措施,所有受影响的客户将分别获得10%的谷歌计算引擎和25%的VPN服务月费的补偿。谷歌的服务级协议所要求的计算引擎每月正常运行时间至少达到99.95%。
网络故障使谷歌云平台中断服务
这一事件最初是网络中断造成入站计算引擎的流量没有被正确路由引起的,服务也影响了VPN和三层网络负载平衡器。管理软件企图恢复到以前的配置,故障保护触发一个未知的bug,一个IP模块从其配置文件中被删除时,用于网络配置管理的其他配置文件并没有完成相应的传输转移,于是这个模块传输失败。
当传输失败时,谷歌通常会选择还原故障部分到之前的位置,然后添加新的模块重新传输。但是这次,前所未有的软件bug被触发了。这次传输失败后,并没有将故障部分还原到原来的位置,而是将谷歌云平台上所有的IP模块进行了重新配置。而这次配置的用的就是用于更新的不完整的IP模块。
最终,95%以上的入站流量丢失,而谷歌工程师恢复到最近的更改配置,终于在谷歌云停运18分钟之后进行了纠正。
这次中断并没有影响谷歌应用程序引擎,谷歌云存储或内部连接计算引擎服务和虚拟机,出境的互联网流量,以及HTTP和HTTPS的负载平衡的正常运行。
谷歌云客户searchcloudcomputing表示这次中断可能会影响他们的业务。而一些很大程度上依赖于资源的备受瞩目的用户拒绝对此置评或未做出回应。另外,一些规模较小的用户表示,他们的业务使用了谷歌云,但中断对其影响微乎其微。
Vendasta技术公司是一家销售和营销软件为媒体厂商,他们甚至没有注意到谷歌的云平台停运。Vendasta公司首席架构师戴尔?霍普金斯表示,该公司采用了内置重试机制,大多数系统使用基于Saskatoon,Sas,大多数vendasta前端的流量通过App引擎服务。
五年来,vendasta公司一直使用谷歌的云计算产品,只有一次中断,使其到了不得不打电话给客户的地步。而正常运行时间高意味着企业不用担心中断很长时间,因此并没有太在意这次发生的事件。
“如果业务中断,就会很糟糕,这是一个很难向客户解释的事情,但其发生的如此罕见,我们不认为防止中断是我们的首要任务之一。”霍普金斯说。
对于低风险容忍,企业对云平台的中断反应沉默让人容易理解,因为大多数运营团队在自己的数据中心内无法实现谷歌公司所承诺的正常运行时间,霍普金斯说。对于不太风险容忍企业,沉默在信任云会更容易理解,但大多数运营团队无法实现正常运行时间的水平谷歌承诺自己的数据中心里,霍普金斯说。
Vendasta公司使用多个云提供的特定服务,因为它们更便宜或更好,但它没有考虑使用另一个云平台的冗余,因为出于成本和技能的要求这样做,以及随之而来是不能够利用一些特定的平台优化的局限性。
所有的公共云平台失败,看来谷歌公司已经吸取网络配置变化检测的教训,Forrester研究公司的首席分析师戴夫?布拉特里提表示。但是,这个时机不太幸运,因为在上个月,谷歌云迎来了以新企业为中心的管理团队。
“谷歌云才开始赢得企业客户的信任,虽然这些大公司肯定会喜欢在低成本的谷歌云平台上运行业务,但从长远来看,其可靠性将更为重要。”布拉特里提说。