WOT程超:自动化到智能化的阿里监控发展之路

原创
网络 自动化
第一代自研的监控系统大概支撑了阿里巴巴五年左右的发展,直到今天还有一部分是在使用着,这套监控系统最大的功劳是解决了量的问题,因为它有了域的概念。

【51CTO.com原创稿件】2018年5月18-19日,由51CTO主办的全球软件与运维技术峰会在北京召开。来自全球企业的技术精英汇聚北京,畅谈软件技术前沿,共同探索运维技术的新边界。而在本次大会上,除了众星云集的主论坛环节,12场分论坛更是各具特色,在“容器下的AIOps”分论坛上,来自阿里巴巴集团监控负责人程超就自动化到智能化的阿里监控发展之路主题进行了精彩演讲。


阿里巴巴集团监控负责人程超

程超自2008年开始加入阿里巴巴,接手的***个项目就是CMDB,这一代CMDB运营到现在已经快十年了,中间经历了很多的运维平台的迭代。程超最初以开发者的角色进入阿里巴巴,最近几年,主要在做监控平台的开发和运营工作。 

阿里巴巴监控系统回顾

据程超介绍,阿里巴巴最开始的监控系统也是开源的,开源的监控系统***的问题就是不能实现规模化,一旦规模上来了,就会碰到各种各样的问题。2009年,程超的团队放弃了开源系统,自己搭建一套监控系统。***代自研的监控系统大概支撑了阿里巴巴五年左右的发展,直到今天还有一部分是在使用着,这套监控系统***的功劳是解决了量的问题,因为它有了域的概念。

如今阿里巴巴使用的监控平台是***一代,也是阿里巴巴最重要的一代监控平台,它有很多不一样的地方。以前阿里巴巴的存储是使用的Hbase现在的存储正在向HiTSDB推进。与常规的监控系统不同,阿里巴巴自研的架构是自上向下的,传统的监控系统是自下向上的。

程超表示,现在阿里巴巴的监控规模是内部有90+的租户,租户包括淘宝、盒马、优酷等阿里巴巴的不同业务,监控系统的机器数量是4000多台虚拟机,这是去年双十一的量。

阿里今天的监控系统

在简单回顾过去的几代监控系统之后,程超讲述了现在阿里的监控系统。他认为做了比较重要的几件事情:首先,我们做了Zero-Copy,程超认为设计监控系统的原则是所有在机器上的处理要放到中心来,而不要在终端机器上直接做处理。当机器监控系统在执行监控任务时,其实很容易出现问题,例如CPU的抖动会影响到监控效果,这种问题真实出现过,所以程超的监控系统时用带宽换CPU,不做任何处理甚至是压缩。其次,我们借鉴了Akka做了自己的框架,整个框架的设计理念比较先进,当然也经过了不断的调试和改进,才能适应今天的需求。

    程超又强调了Agent的部分。他介绍道,在Agent上,阿里巴巴做了很多的事情。我们在做Agent之初,需要接入各种各样的系统,因为监控系统是在业务系统之后才搭建的,不是先有监控规则,大家都遵守。现实的情况是我要表达一个日期,就有非常多的可能性,今天我们兼容了七种其实还有更多,那些更不常用,日期的格式。还有目录也是各种各样的写法。程超强调,Agent需要适应业务,因为整套的监控系统最最核心的价值是保证业务的稳定性。

    为什么阿里巴巴以业务作为重点呢?程超表示,之前提到的HiTSDB还没有做完整,正在进行开发中。阿里巴巴实现了自己的MQL,但是使用HBASE是不能发挥MQL的价值,但是阿里巴巴拥有强大的HBASE的开发和运维团队,这几年的 使用都非常稳定,没有出现过任何问题。那么,阿里巴巴为何要切换到HiTSDB呢?程超解释,HBASE有些事情是不能完成的,比如各个纬度的灵活组合等,所以阿里巴巴正在切换HiTSDB。HiTSDB是阿里巴巴基于openTSDB规范实现的一个数据库,为了适应监控大规模系统,阿里巴巴也正在努力,现在HiTSDB还在不断的优化过程中,预计在今天的双十一之前,HiTSDB切换可以完成。  

通过上图的PPT示意,程超向大家阐述,这个示意图涵盖了整个监控平台,开发者的初衷是希望监控平台下面的这些技术组件可以统一。当今,在阿里巴巴内部有很多套监控系统,程超***的这套则是规模***,在垂直领域***价值的。在图中,程超把团队花了***的精力在做的计算框架部分被标成红色,计算框架在整个的结构里面是占了非常大的比重,包括容灾,性能等诸多方面业务的建立有赖于大量人力物力的采用。

他还向大家介绍,阿里的监控系统在计算、报警通知方面也有所建树。报警和通知这两项,几乎是每个监控系统都要碰到的。因为规模大了以后,报警和通知变得更有意义。

最初阿里巴巴只有一套监控系统,程超的团队在摸索中前进,最初认为没有价值的东西,待监控系统的规模升级之后,也变得更有意义。报警和通知系统对于监控系统来说也是独立而至关重要的。A监控系统和B监控系统***的不同就是针对的领域,相信到整个的计算领域真正普及了报警功能的时候就会大同小异。程超在培训时使用微信、短信、邮件、钉钉,这样做的好处就是在通知那一层还能做很多事情,比如说报警、风暴的问题和在监控系统里面很难解决的问题,当我们尝试把这一层切出来以后,有机会在监控系统之外,还能做出一些价值。

程超认为,在今天的监控系统领域,大家对业务的关心还是太少,因为很多做监控系统的人,原来从事的是运维业务,或者是开发业务,他们有种天然特性,就是认为监控系统只是为了解决运维的问题。这样的认知和格局是不够的。我们看到,在(阿里巴巴)第二代的架构里面,那个时候做出来的监控系统,只是在解决运维的问题。然而在去年,阿里巴巴解散了整个运维团队。如果不做这个彻底的改变,所谓的Devops只是说说而已。

运维团队解散以后,很多平台层面的、工具层面的,自动化的、智能的都会逐步跟进,没有了运维的保姆式的服务,就迫使工具团队和开发团队必须演进出一套用户模型,我们希望把这个模型做成细分级、全方位、全链路、纵向的模型。纵向模型指的是我们的网络质量、应用、线路指标、APM、网络、DIC,再到数据,希望能用这个模型把它们串联起来、结合起来,这就是我们监控系统未来的建设方向。 

    本次WOT峰会讲师演讲稿件由51CTO采编整理,如欲了解更多,敬请登录WWW.51CTO.COM进行查看。

 

 

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

责任编辑:刘妮娜 来源: 51CTO
相关推荐

2018-04-23 11:34:43

阿里巴巴监控系统人工智能

2022-12-15 10:13:24

数据智能化自动化

2018-07-22 14:36:51

网络自动化智能化

2022-02-18 13:12:49

人工智能自动化技术

2022-02-17 17:37:17

超级自动化人工智能AI

2016-03-03 13:56:38

ZabbixWOT2016运维

2018-06-22 22:36:23

新炬网络AIOps三板斧

2020-12-08 08:00:00

机器学习人工智能超自动化

2020-04-29 11:28:54

智能自动化机器人流程自动化AI

2018-08-09 15:04:19

DevOpsAIOps运维

2022-12-19 13:32:04

机器人智能自动化

2015-11-09 14:27:36

Ansiblelinux自动化运维

2022-04-18 10:13:11

超自动化数字化

2009-12-01 10:38:17

智能化网管

2022-12-01 09:12:49

CodeQL自动化审计

2014-06-20 18:26:45

WOT2014自动化运维

2017-09-16 22:45:30

城市治理大数据智能

2022-02-08 09:00:00

智能自动化人工智能RPA

2013-07-02 10:45:38

2016-10-18 14:28:08

网络监控自动化网络监控
点赞
收藏

51CTO技术栈公众号