如何获得更好的数据中心优化指标
由于IT运营、安全运营和设施之间的孤岛或差距,使数据中心可用性长期困扰着IT运营。企业必须解决这些差距,以实现更准确、更全面的决策,特别是在数据中心优化方面。
2018年11月发布的数据中心优化计划草案提出了一些新的指标,可用来衡量美国联邦数据中心的优化工作,包括围绕数据中心可用性的新指标。如果强制要求,美国政府实施数据中心优化计划(DCOI)的可用性指标可能会带来新的挑战。尽管数据中心设施可用性可以用一个度量标准来衡量,但事实证明非常不准确,并且实际上可能扼杀了调研机构预测和解决维护数据中心可用性,以及对机构任务至关重要的任何相互依赖关系所必需的问题的能力。
这就是为什么美国联邦机构可以通过衡量代表数据中心及其基础设施的运行状况、可用性和风险的子指标而受益的原因。采用这种业务服务方法(按地理位置、应用程序类型或技术堆栈对组件进行动态分组)进行数据中心优化,可以使代理机构更快地预测和解决问题,从而更好地确保可用性。
使用业务服务结构,收集有关业务服务的底层IT组件的运行状况、可用性和风险的度量,以及支持该服务的基础设施和应用程序的动态实时映射,可以为IT管理人员提供实时操作视图,以支持隔离服务影响的根本问题标识。可以抽象设备并将单个设备和IT服务“冒泡”为表示业务服务整体状态的组合度量。然而,子度量的表示可以使业务服务的执行或管理层视图能够真正对数据中心的总体可用性状态提供更深入的理解。
假设一个代理商有四台完全相同的服务器,可以承载整个工作负载,其中一台服务器可以正常运行。这三台多余的服务器实质上是备份,可以在其他系统之一发生故障的情况下使用。在此示例中,如果一台服务器发生故障,则该服务仍然100%可用。但是,系统的健康运行状况会下降到75%;因此,导致风险上升到25%。这些指标很重要,因为它们可以消除阻碍执行人员对业务服务进行监督的障碍。以前,数据中心管理员可能会收到一个警报,该警报指示服务器CPU使用率水平已降至某个阈值以下。利用更精细的指标,利用率警报可以自动触发添加另一台或两台服务器以支持更多流量,并且可以自动调整业务服务策略以重新计算新的运行状况,可用性和风险指标,而无需人工干预。冗余和自我修复功能应纳入数据中心的每一层。
在数据中心优化方面,对健康、可用性和风险的定义不可能一概而论。IT运营团队可以定义它们,并根据需要创建自动化和事件策略。随着越来越多的软件定义服务、人工智能、机器学习和高级分析进入数据中心,IT运营团队将有更多的方法来获取可操作的IT洞察力,了解基础设施和应用程序之间的相互依赖性,并自动化手动任务以提高效率。业务流程和运行它们的系统之间的拓扑映射方法可促进自动化,包括修复、配置管理数据库增强和高级事件扩展,从而减少管理、维护和故障排除。