如何防止数据中心中暑?
连雨不知春去,一晴方觉夏深。立夏之后,酷暑难耐就成了理所应当;持续高温高湿,间歇的雷雨台风,无一不彰显着大自然的桀骜不驯。如临大敌的数据中心从业者枕戈待旦,静候这场没有硝烟的数据中心暑期保卫战。本文即将为大家揭秘数据中心暑期保卫战作战兵法。
一、知己知彼,百战不殆
所谓知己知彼,是要对战场局势、敌我优劣了如指掌。对于数据中心经理(简称数经)而言,首先就是要编织一张高可靠的信息网。
1、天气预报
赤壁之战,诸葛军师夜观天象,巧借东风,一举挫败曹操八十万大军。虽然诸葛已逝,我辈无力窥天,但现代天气预报可谓数经的重要情报源。随着天气预报准确度的不断提升,未来15天的气象信息已经为数据中心运营保障提供了充足的备战时间。
2、供电情报
夏季通常也是电力系统开展大型维护的重要时间段,例如供电线路转供电检修,线路停电时间可能长达2天以上。如果此时出现雷雨、大风等极端情况,数据中心的运营压力将陡然增加。因此,供电情报的及时准确性非常重要。
3、市政供水
对于水冷系统数据中心,市政供水是不可或缺的重要资源,尤其在炎炎夏日,市政供水短缺将给数据中心运营带来致命的影响。因此,除了掌握蓄水池储水情况,还应该及时关注市政供水信息。
4、业务规划
暑期往往又是不可多得的互联网应用狂欢时段。毕业季的放荡不羁,欧洲杯的激动人心……这一切都预示着互联网业务的又一个高潮到来。在对业务支撑上,数据中心也将迎来更高的业务负载。
5、数据中心情况
当完成上述四项情报收集,距离“知彼”就相差不远了。而数据中心情况摸底则是我们掂量自身实力达到“知己”的必经之路。从基础设施运行维护、备品备件存储、应急预案及演练等多角度全方面的梳理与评估,才能做到胸有成竹。
二、凡事预则立,不预则废
对于数经而言,面对外界诸多不可控的影响因素,没有一套成熟的保障机制,将会面临接踵而至的挑战,甚至草木皆兵。那么如何才能做到以不变应万变呢?
1、例行维护
例行维护是对数据中心进行的系统性维护(或称维修保养)工作,确保数据中心各系统处于良好的运行状态,植根于每天的日常工作中,是必不可少的重要环节。例如:
2、高危设备巡检
在例行维护的同时,我们需要针对高危设备开展针对性的巡检工作。经过四年的配合,腾讯数据中心已经和运营商建立并完善了季度高危设备巡检机制。我们在开放包容中互通有无,为数据中心基础实施提供有力保障。四年以来,通过高危设备巡检,揪出多起高危风险隐患,且在各方的协调下第一时间予以处置,确保了数据中心运营安全。常见的高危风险如下:
除了针对基础设施设备的巡检内容,近年来我们也将巡检范围扩宽到数据中心安全领域,从物理安全、人身安全、信息安全三个纬度去综合评估。
3、备品备件储备
除了数据中心基础设施各大系统常用备件(详见《腾讯数据中心公众号文章“数据中心基础设施备品备件管理》)。我们隆重推荐几项杀手锏级别武器,可在千钧一发之际,助君力挽狂澜。
4、应急预案与演练
为了提升数据中心运维人员的应急响应能力,应急预案的制定和演习是至关重要的。应急预案应覆盖数据中心常见应急场景,并且具有可操作性。常见的应急应预案包括:
应急预案的制定通常不是瓶颈,而应急演练能否以严肃的态度去开展往往决定了团队真实的响应能力。下面我们将为大家呈现一组腾讯某数据中心防洪应急响应演练的照片:在气温30℃情况下,应急抢险人员全副武装,严格按照应急预案开展演习;此次演习,汗流浃背的他们以一场教科书式的演练,展示了数据中心运维人员严谨而敬业态度。
5、应急响应团队
为确保应急响应有序开展,应该建立应急响应指挥团队,确保每一位应急人员各司其位。并在日常运维排班的同时,充分发挥备班人员的快速应急支撑能力,确保第一时间内具备充足的人力保障。
三、养兵千日,用兵一时
虽然,在规划设计阶段,从架构上保证了系统的冗余,如从不同的变电站引入主备市电线路等;在运营保障中,我们也按照上述既定的流程推进和实施。但是,极端天气等不稳定因素的影响依然不容小觑。
今年入夏以来,暴雨、雷暴天气显著增加。面对极端天气的影响,腾讯数据中心应对有序,顺利保障业务正常运行。6月4日,深圳出现严重雷暴天气,多地区出现市电异常情况。腾讯某数据中心两期共计4路高压市电(来自四个不同的变电站)均出现了闪断,数据中心运维团队迅速采取应急响应措施,采用柴发系统带载,蓄冷罐放冷等措施,顺利保障业务正常运行。
军人常说“首战用我,用我必胜”,其实这也是数据中心运维人员的内心写照,秣马厉兵,为的就是战胜那万分之一的可能。
当一场没有硝烟的保卫战悄然拉开帷幕,数据中心运维的战士们迎着号角前行。他们甚至来不及欣赏这片蓝天白云,然而他们的汗水必将凝聚成为互联网的云海。
暮鼓晨钟随风去,寒暑交替春又来。其实,对于数据中心运维团队而言,暑期保障仅仅是我们数据中心运维保障的一个缩影。