算力热潮之下的“冷”隐患
连续制冷对数据中心至关重要,由于市电中断、制冷设备故障等原因导致数据中心制冷中断,服务器、网络设备都会因为过热而罢工,其承载的业务会中断、未保存的数都会丢失,不仅经济损失严重,还会对企业的声誉造成严重损害。日常浏览网站、使用APP时,会遇到在线服务中断的情况,很多都是因为数据中心发生了制冷故障。据权威机构Uptime Institute调研表明,近些年制冷系统故障率已超过IT系统,成为供电、云服务器网络故障之后的最大数据中心宕机原因。
中小数据中心的连续制冷难题
如何解决制冷故障导致的数据中心服务中断一直是行业里的大课题,多年来通过不断提升建设标准、强化容灾系统、完善应急方案等措施,多数大型、超大型数据中心已经可以轻松应对制冷故障,实现连续制冷保障业务稳定。对于中小型数据中心而言,由于业务规模小,单柜功率密度低,往往不会配备连续制冷,这意味着中小型数据中心面对市电断电时,更容易发生高温宕机的情况。随着中小型数据中心单柜功率的提升,这个问题面临愈演愈烈的趋势,近年来因制冷系统故障导致的中小数据中心服务中断事件可谓层出不穷——10月中旬,一家位于广州的中小型数据中心发生了制冷系统故障,导致机房温度升高,部分服务器罢工,影响了多个客户的业务。此前5月份,上海某机构的自用小型数据中心发生了制冷系统故障,导致机房温度超过40摄氏度,部分承载业务的服务器自动关机。去年12月份,香港某数据中心制冷故障,导致澳门金融管理局、莲华卫视以及大量港澳企业和媒体无法正常访问。去年8月份,南京一座中小数据中心发生服务器过热宕机,多次重启制冷系统失败,导致业务中断3小时以上。……
市电中断,宕机只需“分分钟”
传统的中小数据中心,往往具有设备密度小、服务器功率低、空间开放等特点。同时因为成本、能源供给、使用空间等因素,中小数据中心很少配备大型数据中心常见的冷凝水塔、空调UPS等后备系统,基本不具备制冷冗余和灾备体系。这样的中小数据中心出现制冷中断时,往往依靠原本机房空间的蓄冷和开窗通风、风扇吹等手段扛过设备重启的时间空档。但在今天,情况正在发生变化。随着数字化转型的深入,各行各业已经纷纷将业务迁移到线上,对于在线服务的依赖性不断提升,一旦服务中断损失将无法估算。同时,因为业务的迁入以及各类数字工具的应用,极大提升了中小数据中心算力规模,IT负载和能耗都在同步攀升。在这种情况下,一旦出现制冷故障,服务器温度会在几分钟内飙升到无法正常运转的程度。据《数据中心在制冷系统中断期间的温升》白皮书显示,机房制冷中断后只需要5分钟左右,“所有位置的温度都达到不可接受的温度范围”。随着IT负载的提升,高功率、高密度机柜在制冷中断情况下可稳定运行的时间也在缩减。实测数据显示,传统的3KW机柜在失去制冷后,服务器热保护关机时间大概有480s,4KW机柜则缩短到300s。当机柜密度达到8KW,热保护关机时间则缩减到不到240s,只有3KW机柜的一半。
中小数据中心连续制冷势在必行
连续制冷对于中小型数据中心来说,已经成为一项不可或缺的需求。特别是当前,中小数据中心已经逐渐转变为设备密度高、服务器功率大、空间封闭的新形态。这一新形态下,必须要采取新的制冷方案,连续制冷面临强需求。不过,中小数据中心的连续制冷并不如说起来这样简单。业界常见的连续制冷方案包括蓄冷罐、空调专用UPS等,对于小型数据中心来说却并不合适。蓄冷罐主要应用于大型水冷数据中心,不谈水冷系统中冷机、蒸发塔以及各种粗大管道,仅仅是蓄冷罐本身往往直径就有10米左右,高度更是达数十米。很多中小数据中心空间本就有限,很多都是在写字楼、基站之中,自然不可能配备如此夸张的蓄冷罐。还有一种方案是为蓄冷系统配备单独的UPS,这种方案是为了应对突发断电导致的制冷中断。但传统中小数据中心往往采用较小功率的UPS和启动电流较大的定频空调,考虑到空调设备的启动电流较大,云主机UPS容量需要达到空调功率的6~8倍,这会大幅增加机房建设的投资,在实际的机房中也鲜有应用。
当前较为可行的方案,是采用变频的精密空调,并为空调配备UPS和电池备电,在这种情况下,精密空调作为动力设备,运行过程中会产生谐波,需要增加谐波抑制或者补偿的相关手段。同时,空调等动力设备的故障率一般高于电子信息设备,如果采用UPS为空调供电,需要考虑在空调突发短路等异常时,能够迅速隔离故障,避免影响在UPS后端的其他设备。
因此,在全新的形态和应用场景下,中小数据中心需要寻找到一条适合自身的连续制冷之路,这是产业发展的需求,也是保障数字化进程的重任。
只有通过采用高效、可靠的制冷技术,并建立完善的连续制冷机制,才能够确保中小数据中心业务的连续性和稳定性,为用户提供更好的服务体验。