中国领先的IT技术网站
|
|

数据中心的重保之战

数据中心是各种信息数据处理的集中场所,那么,数据中心如何在关键时期,做好保障工作呢?

作者:harbor来源:企业网D1Net|2017-11-01 11:55

Tech Neo技术沙龙 | 11月25号,九州云/ZStack与您一起探讨云时代网络边界管理实践


中国共产党第十九次全国代表大会刚刚落下帷幕,这是一次举国上下、全国人民都密切关注的盛会。为了开好这次会议,全国所有行业有无数的人在默默地辛勤付出,以此来确保各项工作有条不紊地进行,保障所有行业市场正常运转,当然也包括数据中心领域。数据中心是各种信息数据处理的集中场所,在十九大会议现场的实况转播、会议数据统计、全国各地在线观看或者学习了解十九大的相关资料,这其中都有数据中心的身影。为确保会议期间,各项重要工作不停歇,数百万个数据中心也是在不停运转,系统稳定运行。所谓重保,指的是数据中心在特定时间段内确保业务平稳正常运行的保障活动。其实在每年,数据中心都要有几次关键事件,除了像十九大这样范围最广的全国会议,比如还有阿里巴巴的双11狂欢节,中国一些传统节日:国庆节、春节等等,在这些关键事件上,如果数据中心出现故障,影响是很坏的,就像几年前12306网站刚出来的时候,春节由于访问量过大,导致网站直接瘫痪,无法提供稳定的购票服务,导致人们怨声载道,这一事件虽已经过了几年,还是总被人拿出来调侃,大大影响了12306网站在人们心中的形象,随着这几年的不断努力提升,12306网站才逐渐得到大家的认可。所以,数据中心要确保业务全年无中断,尤其是在关键事件点上不能掉链子,数据中心要做好重保之战。

数据中心的重保之战

数据中心如何在关键时期,做好保障工作呢?俗话说:“养兵千日用兵一时”,大战在即才想到练兵那是不行的,平日里就要做好练习才行。数据中心在关键时期运行能否稳定,需要的是平时一点点的积累。在数据中心日常运维的工作中,就要对数据中心的运行状态深入了解,关注数据中心里所有设备的运行情况,有隐患及时消除,不能等遇到重大事件前才去搞突击检查,这样必然有漏网之鱼,将数据中心置于风险之中。当然,在重大事件发生之前,要做好比平时更密集和认真的检查是需要的。“冰冻三尺非一日之寒”,数据中心要想做好重保,平时也要多下功夫才行,时刻保持一颗如履薄冰的心态,将平日的小问题或故障作为预演,每次处理都要认真总结经验,做好技术储备和积累,没有实践就没有发言权,只有经过数次的历练才能在关键事件中遇事不慌,做好应对一切突发事件处理的能力,这些经验和能力就是来自平日里的学习和经验积累,“罗马不是一天建成的”。

不能打无准备之战,数据中心一旦进入重保时间之前要做充分的前期准备工作。相比以往,要配备更多的值守人员,增加巡检次数和频率,将数据中心的精锐技术力量都要投入到重保中来,根据事件的不同,数据中心灵活做出应对,在不同的方面进行加强。同时对数据中心在重保期间可能出现的突发情况进行预估,比如流量洪峰、突发流量、设备故障、供水供电中断等等,根据可能出现的异常,制定相应的应急措施。在重保开始之前,要尽可能地进行一些故障演练,通过演练及时发现问题,进行修补,不要让这些应急方案成为摆设,关键时候不起作用。只有准备得充分,重保期间才会轻松。重保还要做好物资准备,主要包括通信装备、电源设备、辅助设备、后勤保障设备和个体保护设备等应对突发事件所需要的物资,因为这些物资基本只是在重保期间可能会用到。应急物资要科学规划,既要起到备份作用,又要避免铺张浪费。

一旦数据中心进入重保时间段,一定要禁止一切的业务变更和操作,严格管理访问数据中心控制,对不同技术人员开放不同层级的设备查看命令,严禁使用配置更改命令。数据中心所有人员活动和工作日志都记录下去,做日后查看或者发生故障后回看。其实,在重保期间,所有技术人员的工作反到轻松得很,只要静静观察数据中心各种运行参数就行。重保时间段内,没有出现故障,整个重保过程还是相对轻松的。只要前期的准备工作做足,这时反倒没有什么特别的事情了。还有,如果在重保期间,业务发生了故障,是不会留给技术人员时间去分析故障原因的,而是立即启动应急措施,以恢复业务为主,事后到重保结束后,再去分析故障的成因。在重保期间,减少了人为活动,反而可以减少人为故障的发生,要知道数据中心里的故障多半都来自人为。重保期间需要加强的就是检查的频率和时长,安排技术经验丰富的人员坐镇,每个小的隐患点都不要放过,及时消除,避免引发大面积的故障。加强人力的安排,从普通操作员到资深架构师都要参与其中,为重保出力。

重保时间结束后,数据中心的一切活动又恢复了正常,这时还没有完结。要及时对这次重保工作进行总结,做得好的地方和人员要表扬,做得差的和不足地方要批评和改进。参加了重保工作的人员要有经验进行输出,供其它人学习使用,要将重保所取得的成果进行展示。根据重保经验,对之前制定的各项重保措施进行修改和调整。重保是对数据中心工作成效的一次全面检验。如果数据中心在重保期间出问题,平时工作做得再好也没有用,一定要抓好数据中心的重保工作,只有经历过多次重保大战的数据中心,才能不断提升自己的管理和技术水平。在重保期间表现优良的数据中心也必将得到人们的青睐,人们才会更愿意使用这样的数据中心,数据中心务必要打好重保的战役。

【编辑推荐】

  1. 区块链对数据中心和云计算的影响
  2. 塑造适应大数据和物联网发展的数据中心
  3. 今天及未来的数据中心是如何运作的
  4. 数据中心的安全与控制
  5. SDN改变路由器技术发展路径
【责任编辑:赵宁宁 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

热门职位+更多

读 书 +更多

Windows Forms 编程实战

本书由浅入深地介绍Windows Forms编程的技巧和各种实用方法。本书先详细介绍了菜单、状态条、可复用类库、文件对话框、文本框、按钮、列表...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊
× CTO训练营(深圳站)