数据中心基础设施运维管理体系建设
Construction of data center infrastructure operation and maintenance management system
肖鑫 1陈凯2 沈庆飞 3宣依彤1
1.成方金融信息技术服务有限公司 2.中国质量认证中心 3.中国国计量科学研究院
摘 要:如何持续保障数据中心基础设施安全可靠运行已成为数据中心行业探究的核心问题。本文从体系化理念出发,在实践经验基础上以管理域的形式明确数据中心管理能力要求,通过全面发展、不断迭代,实现提高质量、化解风险、避免事故的管理要求,安全可靠运管基础设施系统,达到全生命周期内持续保障安全生产的工作目标。
关键词:数据中心基础设施;运维管理体系;TQC
中图分类号:F49
我国数据中心经历了十几年高速发展,目前存量数据中心数量较大、单体数据中心规模也日益增大,数据中心基础设施运维管理行业已初具规模。与数据中心数量急剧增加相对应,数据中心基础设施安全性、可靠性、业务连续性要求以及能耗控制水平亦日趋严格。面对电气、供水和监控系统设备众多且技术逻辑复杂的基础设施,在团队人员数量有限、技能技术水平参差不齐的现实条件下,如何安全、规范、科学且高效运管数据中心基础设施,保障数据中心全生命周期内有效抵御外部因素影响、规避和控制内部故障事件影响,是数据中心管理者面临的重大挑战。运维管理体系化的思想则有利于运行合规、责任明确、流程固定、操作规范、决策科学、风险预防和持续改进等多目标实现,是解决上述问题的有效手段。
1 基础设施运维管理体系建设的重大意义
1.1 提供科学全面的工作指南
数据中心的运行阶段占数据中心全生命周期的绝大部分时间,而且数据中心设计和建造阶段的时间有越来越短的趋势,更加凸显了数据中心运行阶段基础设施运维工作的关键地位。在运行阶段,基础设施故障率U形曲线明确显示了基础设施在投运初期和临近寿命终期存在两个高故障率区间,这是不可避免的基本运行风险,过程中还有合规性风险及天气影响、人为失误、监控失效、漏水、火灾等随机风险,故数据中心基础设施运维工作的难度较大,对运维人员的专业知识和综合素质要求很高。此外,基础设施故障带来的损失往往非常严重,尤其是影响业务系统对外服务的情况下,损失难以估量。针对基础设施运维工作难度大、风险高的现实,运维管理体系基于运维实践经验,针对基础设施运维各个维度的难题进行有效管理,扩充了传统管理领域的范围且对管理目标进行了明确[1],克服了单纯依赖经验进行管理的缺陷,为运维人员提供了工作指南。
1.2 贯彻落实持续发展的理念
质量是事业的根基,但是基础设施运维工作的质量易被忽视,甚至外行人把数据中心基础设施运维工作等同于大楼物业设施维护修缮。殊不知虽然物业也维护水泵、变压器、摄像头等设施,但是在设备维护数量、巡检频次、维护频次、维护标准、故障处置及时性、服务人员素质和服务质量方面物业设施维护远不及数据中心基础设施运维严苛。忽视基础设施运维工作的质量,不仅不利于维护人员养成认真严谨的工作习惯,还会给设施设备的运行带来隐患,更谈不上风险的预防和预警。运维管理体系重视质量,以质量持续发展为最终目标,强调在各工作实施过程发现问题、总结经验、优化流程以提高工作效率和工作质量,通过评审管理、审计管理、持续改进管理等具体管理域落实管理措施,在质量保证方面起到了关键作用。
2 运维管理体系认证与场地基础设施认证的区别
2.1 认证目的不同
数据中心场地基础设施认证比运维管理体系认证更早推出,主要是对基础设施建成投产前的可靠性、安全性进行检测和认证,体现基础设施整体上正常工况下、异常状态下的服务保障能力,是基础设施设计、建造完成后本身的属性,与数据中心基础设施的运行、维护和管理等工作关联性不大;而运维管理体系认证则是评价运维团队合理组织各种资源通过周期性维护、故障处置、参数调整、专项检测等各种作业保证设备正常运行并尽量延长其使用寿命的能力和实际工作效果。CQC8302认证从L1到L4共分四级[2],从低到高分别是L1基础级、L2标准级、L3增强级和L4卓越级,但目前尚未有数据中心提升至L4级。场地基础设施认证后需要监督审核维持其证书有效性,除非重大技术改造,场地基础设施评价等级一般不会改变;而运维管理体系认证的监督审核则受运维模式改变、团队人员调整、运维目标设定、生命周期阶段变化等多方面因素影响,其等级可能上升或下降。
2.2 认证内容不同
数据中心场地基础设施认证材料主要包括设计文件、场地基础设施设备实物和投运测试报告等内容,而运维管理体系认证材料的主要内容是单位/公司发布的与各管理域相对应的制度,以及运维团队在人员构架和基础设施设备总体构架基础上编制的涉及问题管理、创新管理、评审管理、可用性管理等各管理项实施细则和“4P”文件(SOP、MOP、SCP和EOP文件)。在运维管理体系认证的现场审核过程中,运维团队需要对维护内容和频率的合理性、事件处置的原则、工作方案的评审过程、问题清单的管理等进行合理说明,还需要按照评审组随机抽选的应急预案开展应急演练以检验运维团队对体系文件的掌握运用和实操技能水平。简而言之,运维管理体系认证的内容是体现团队制定的体系文件、团队人员技术能力和基础设施技术特点三者匹配性的全部佐证材料。
3 基础设施运维管理体系建设经验
3.1透彻认识管理域本质属性
以CQC8302体系为例,其包含了管理能力、运营保障和组织治理3大管理域共33个管理项,较为抽象难解。在建设过程中可以从常规运维工作的管理方面进行理解,比如技术管理、流程管理、人员管理、综合管理等,把管理域对应到数据中心运维的具体工作方面有利于团队人员理解体系内容,可以有效拉近体系和实际工作的距离,直达其本质属性:体系不是运维之上的另外一套东西,体系是构架化的深入运维,运维是体系赖以成长改进的本源。
3.2坚持实事求是基本原则
既然体系的本质就是运维,那么体系的建设应该坚持运维的基本原则,即实事求是。从实际运维职能和范围[3]出发,管理项的实施细则才有针对性,流程的运转才准确高效,人员的职责和工作量才科学合理。在体系建设过程中应敢于面对实际问题,边建设边解决,每处理一个问题就化解了一个运行风险,真正实现运维管理体系建设的目的。对于数据中心已存在的好的管理方式,也应根据实际情况进行固化和推广,最大程度发挥其作用;对于借鉴其他项目体系建设经验,与其学习个别文件,不如参考其体系建设的整体原则和思路。脱离实际情况建立的运维体系,终究无法达到全面提升运维管理水平的效果,甚至出现体系文件与实际情况冲突的现象,给运维工作带来负面影响。
3.3抓住权责划分关键方面
运维团队人员较多,既有白班人员又有倒班人员,且一般又分电气、暖通和弱电等专业,还有值班长和各级主管的岗位。实现运维团队的高效履职,必须在体系建设过程中抓住权责划分这个关键,通过制定人员岗位职能管理细则、绘制管理组织构架图、编制人员配置表以达到厘清岗位职责与权限的目的。以上工作的前提,是员工访谈和参加例会、实际参与运维工作,摸透日常操作、维护维修、应急处置、数据分析等工作的开展方式。权责划分明确,是体系建设其他管理项落地实施的前提,在科学设置岗位、合理分配权限、明确责任义务的同时也应注意,权责划分不是一蹴而就的,体系建设的全过程中都涉及权责归属问题,故而权责划分是在确定岗位职责和人员构架基础上的一个不断辨识、细化的过程。
3.4扎牢日常运维工作根基
日常运维工作是周期性的,重复且单调的,但日常运维工作是最接近设备、最接近故障、最直接感受环境变化的过程,所有的经验、流程、评价标准乃至制度几乎都从日常运维工作中总结而来,如果日常工作井井有条,那么体系建设就应该水到渠成。所以在体系建设之前,应对照管理项要求进行分析,大概评估差距,如差距较大,不妨从抓好日常运维工作开始先把根基扎牢,然后再进行体系建设,否则运行环境突然大范围改变会导致员工的不适应,不利于全员积极主动贯彻体系要求。
3.5着力提升核心管理能力
CQC8302体系中,运营保障部分占了11个管理子域中的5个,属于运维体系建设的重点,所以必须分配大部分资源完成运营保障部分的体系内容。在运营保障部分内的管理能力项中,又以监控管理、作业管理、资产与配置管理、服务请求管理、事件管理、容量管理等内容为最核心的管理能力,在体系建设过程中必须结合实际情况严谨科学编制相关文件,确保核心管理能力满足核心业务规范有序安全开展的要求。在核心管理能力涉及的流程、表单、逻辑、计划等相关内容基本完成后再推进与其他管理能力项的协调联系,有利于高质量完成体系建设。
3.6借鉴TQC理念提升质量目标
运维管理体系的管理项设置过程中已借鉴了信息服务领域流程管理的思想,再结合质量管理TQC思想可实现运维质量的更好提升。TQC思想是全面、全员、全过程进行质量提升的,基础设施运维管理体系的建设和维护也需要全面、全员、全过程推动,实现人员、资源在体系运转过程中的最佳配置。全面,有利于数据中心整体可靠运转的把握;全员,能集中个体的力量为团队的合力;全过程,及时反馈过程中的缺陷实现体系快速优化提升。在实际工作中,要鼓励创新、创造,让运维人员有进取的动力,才能真正实现运维管理体系和团队运维管理能力的相互促进、共同成长。
4 结语
综上,数据中心基础设施系统规模越来越大、运行可靠性要求逐渐提高,单纯依靠个人传统运维经验已难以胜任,必须转变为体系化运维并持续提升团队运维水平方能增强保障数据中心长期安全稳定运行的服务能力[4]。逼着单位的基础设施运维管理体系建设过程和结果显示,通过运维管理体系贯标化解了多项潜在风险、优化了多个管理项,在权责明确的基础上规范了管理流程、提升了运维团队的服务意识,基础设施运维有了可靠抓手,运维管理环境和管理效果明显改善。
随着新的监控技术、数据分析算法不断引入基础设施运维领域[5],多种技术手段和人的经验共同作用,终将推动基础设施运维能力向更高的水平发展,运维体系也将在这一过程中更加完善、成熟,展现出更大的实践价值。甚至,随着运维理念的深刻变化和基础设施构架的升级,也许不久的几年内,会共同见证基础设施运维管理体系的换代升级。