前沿技术您现在的位置:主页 > 新闻资讯 > 前沿技术 >

如何建立数据中心运营管理体系?来源:东升耘智     时间:2020-08-31 16:51


 

--- Management & Operation(M&O
 
 
     互联网和信息时代的到来使数据中心成为最重要的战略核心资源,企业竞争进入大数据竞争时代。数据中心的成立,实现企业数据的高效整合、集中管理、科学运营;数据中心的稳定运行,运维是最重要、持续时间最长的过程。从运维管理角度来看,设备运维和人员管理是互补的两方面,需要建造一个完整的管理流程。Uptime 通过对20年基础设施故障数据库的调查发现,近70%企业组织的数据中心遇到过影响业务的数据中断,究其根本原因就是运维管理不到位。
 
    如何运营管理好数据中心,需要从以下几个方面考虑数据中心运营管理,着手制定相应体系。

一、安全管理体系
 
     数据中心场地基础设施运维团队要编制数据中心生产环境(工作场所)安全方针,设定严格的安全生产规范。根据安全方针制定有效、明确的安全计划,来教授和培训安全原则、危险识别、纠正缺陷和控制风险。加强对于该部分规范合规度的培训、考试和审核检查,以确保数据中心运维人员人身安全。
 
1.相关安全生产规范主要包括:

§ 数据中心场地基础设施安全管理规范及各系统安全管理手册;

§ 数据中心场地基础设施涉及安全的应急预案;

§ 数据中心场地基础设施管理过程涉及技术方案的安全管理策略。

2.培训方式及内容总结如下:

 
二、质量管理体系
 
三、人员管理体系

    数据中心运维组织按照企业属性和运维模式的差异而有所不同,通常采取以数据中心场地为单位,按维护、值班巡视分组:维护按技术大类分组,工作方式为5×8 小时;值班巡视以监控、巡视综合值守为主,工作方式为7×24 小时。

人员配置要求:

(1)除了数量合适外,运维人员还必须具备执行分配任务的专业资格;
(2)完整的数据中心人员配置涵盖设施操作、IT运营、安保操作等;
(3)设施操作人员配置包括管理、工程和行政支持、建立操作团队、当班维护、供应商支持等;
(4)人员数量配置需求是经过全面计算后根据公式:需要的总工时/生产工时=人员配置要求计算而来;
(5)关键管理人员或关键岗位人员在正常运维工作开展中应采用A、B 角色配置。
 
四、制度管理体系


 
五、 运行管理体系
 

 
六、设备上下架管理

1. 设备上架位置的选定,包括承重、电力、制冷、布线等部分;
2. 待上架设备的安全确认(在市电处设备通电测试其状态);
3. 上架后设备标识、电源线标识、光纤网线标识完善。

七、维护维修管理

1. 预防性维护;
• 制定预防性维护计划(PM)
• 详述有关如何实施工作的步骤和程序
• 维护完成时间计划
• 在工单上标识工具和使用的零件数。

2. 预测性维护
不同技术可用于评估设备条件并相应地调整维护活动。典型的数据中心预测性维护活动有:
1) IR分析(红外);
2) 机油分析;
3) 振动分析;
4) 超声波分析。

3. 备品备件管理
1) 库存变动依据
• 系统和设备冗余
• 当地零件的可供性
• 储存空间
• 设备年限

4. 故障原因分析
• 详细记录事故及其对操作的影响
• 回顾事故前后采取的行动
• 确定根因
• 经验教训

建议的纠正措施  

八、测试验证
    (1)在不对关键IT负载带来风险的前提下下,测试验证是唯一能够验证系统性能符合设计要求的时间段;
    (2)能够减少关键基础设施的早期设备故障;
    (3)对维护和运营团队而言,是获取亲自操作设备经验的关键机会;
    (4)是对运行中设施维护和操作的详细书面管理流程进行验证的一个机会,是测试设施极限的唯一机会。

 

       东升耘智科技有限公司服务项目充分融合IT服务管理理念,从技术管理、流程管理、培训管理、成本控制管理、质量管理、无边界管理入手,实现人员、流程、技术综合服务的专业化和标准化管理。除测试验证、运维体系建立和风险评估外,还包括大中型数据中心Uptime认证咨询指导。公司拥有专业数据中心基础设施运营管理团队。
 
 
        雷林昌,注册建造师、中级职称、Uptime AOS、CDCC数据中心设计师委员会委员,现任东升耘智科技有限公司运维总监;西安东升运维技术有限公司总经理。十六年数据中心建设及运维经验,对客户业务及数据中心基础环境设施需求有深入了解和研究,将IT服务管理理念和标准体系全面运用到数据中心基础设施运维管理服务领域。为客户提供开拓性、体系化、规范化的服务,赢得了客户的认可。先后参编中国数据中心基础设施检测标准、数据中心CFD技术白皮书。