CCF DL Focus On AIOps|CCF数图焦点：智能运维技术 2022年第7期（总第9期）

编者寄语

近期，西安广东两地发生的“健康码”在疫情防控关键时刻宕机现象引起了人们对大型互联网系统运维技术的广泛关注。随着“互联网+”的迅猛发展，以医疗、金融、电力、网购、出行等为代表的人类日常生产生活日益依赖于大规模互联网应用服务，而这些系统通常软硬件构成复杂、规模庞大、安全可靠需求高，特别是近年来云原生、微服务、SDN/ NFV等新技术的快速迭代演进，传统依赖人力的运维方式已无法应对，迫切需要发展智能运维技术。

智能运维致力于借助人工智能和大数据分析等技术，通过持续采集系统的监控指标、系统日志、运行轨迹、部署关系、系统配置等运维数据，探索分析内在规律并开展异常检测、故障诊断、根因定位以及故障预测，推动日常任务处理和运维流程的自动化和智能化，从而使得运维人员更高效地构建、运行和维护系统。

当前，智能运维的学术研究和工业实践方兴未艾。CCF互联网专委会基于CCF数字图书馆推出本次《智能运维》专题，从计算、网络、软件等多角度组织了8个资源。这些资源探讨了在云计算、基础网络、运维大数据分析等架构下实现故障检测、根因分析、故障预测、止损推荐、弹性编排、容量预测、网络配置生成、路由策略变更、能源节约等运维目标，保障系统的可靠性、稳定性和安全性。希望这些资源能够为智能运维领域的研究人员和工程师提供更新、更高、更全的视野。

本期编委

近年来，伴随着数字化的应用与服务在各行各业得到广泛的应用，基础的IT系统在容量和复杂性方面不断增长。系统故障变得不可避免，导致服务性能下降甚至服务中断，由此带来严重的系统可靠性隐患。本次报告将回顾我们在构建可靠性驱动的智能化运维框架的经验。针对系统软硬件日志、度量数据、系统拓扑关系、系统告警以及系统工单等原始运维数据，我们通过数据驱动的方式，提出相应的智能化解决方案，以达到异常检测、故障诊断、根因定位以及故障预测等目标，最终增强系统整体可靠性。

格式：

视频

“东数西算”时代的云网智能协同技术

CNCC2021分论坛,

随着千行百业数字化转型升级，云计算、互联网、5G等新一代计算与网络技术与经济社会交融共生，算力和网络已经成为影响产业发展的核心关键因素，泛在互联的网络、无所不在的计算，推动云计算、网络与智能计算等加速融合，云网智能协同技术日益成为学术界和产业界关注的焦点。我国对此高度重视，启动了以“东数西算”为代表的国家网算融合工程。在“东数西算”时代，如何充分优化计算和网络资源部署，实现云数据中心、边缘数据中心、智能计算平台、网络之间的协同，成为当前的新挑战。本论坛将邀请国内外院士、知名高校学者以及华为/阿里、中国移动/联通等行业企业的知名专家，对云网智能协同技术进行深入研讨，探寻互联网的未来之路。

格式：

视频

基于大规模运维数据的云原生软件多维度分析

彭鑫,

目录：1、云原生软件生态系统 2 、软件分析的挑战与机遇 3 、基于运维数据的多维度分析 4、总结与展望

格式：

PPT

数据驱动的在线服务系统异常分发诊断技术

陈俊杰,

In recent years, online service systems have become increasingly popular. Incidents of these systems could cause significant economic loss and customer dissatisfaction. Incident triage, which is the process of assigning a new incident to the responsible team, is vitally important for quick recovery of the affected service. Our industry experience shows that in practice, incident triage is not conducted only once in the beginning, but is a continuous process, in which engineers from different teams have to discuss intensively among themselves about an incident, and continuously refine the incident-triage result until the correct assignment is reached. In particular, our empirical study on 8 real online service systems shows that the percentage of incidents that were reassigned ranges from 5.43% to 68.26% and the number of discussion items before achieving the correct assignment is up to 11.32 on average. To improve the existing incident triage process, in this paper, we propose DeepCT, a Deep learning based approach to automated Continuous incident Triage. DeepCT incorporates a novel GRU-based (Gated Recurrent Unit) model with an attention-based mask strategy and a revised loss function, which can incrementally learn knowledge from discussions and update incident-triage results. Using DeepCT, the correct incident assignment can be achieved with fewer discussions. We conducted an extensive evaluation of DeepCT on 14 large-scale online service systems in Microsoft. The results show that DeepCT is able to achieve more accurate and efficient incident triage, e.g., the average accuracy identifying the responsible team precisely is 0.641~0.729 with the number of discussion items increasing from 1 to 5. Also, DeepCT statistically significantly outperforms the state-of-the-art bug triage approach.

格式：

PPT

面向云原生系统的性能异常检测与根因定位

陈鹏飞,

内容提纲：云原生背景、基于图的异常检测检测、基于随机游走的根因定位、基于Trace的根因定位、AIOPS挑战赛方案分享、云原生智能运维趋势

格式：

PPT

AIOps前沿进展

裴丹,

AIOps是一个新兴交叉领域，采用机器学习方法，解决系统运维中的故障发现、故障定位、故障处置、故障规避等挑战。本次报告首先简要介绍AIOps的概念与挑战。之后讲介绍三个AIOps案例：1) 网络交换机故障预测；2) 多维指标异常定位；3）单指标异常检测。最后讲展望AIOps前沿进展并介绍2019国际AIOps挑战赛。

格式：

视频

基于机器学习的智能运维

裴丹，张圣林，裴昶华,

当代社会生产生活的许多方面都依赖于大型复杂的软硬件系统，包括互联网、高性能计算、电信、金融、电力网络、物联网、医疗网络和设备、航空航天、军用设备及网络等。这些系统的用户都期待有好的体验。因而，这些复杂系统的部署、运行和维护都需要专业的运维人员，以应对各种突发事件，确保系统安全、可靠地运行。由于各类突发事件会产生海量数据，因此，智能运维从本质上可以认为是一个大数据分析的具体场景。

格式：

文章

7*24小时数据中心在线运维和运营大数据分析

张天,

报告将介绍并行科技7*24小时数据中心在线运维服务系统，可以将分布在不同地域几十万台服务器的实时运行数据传送至集中运维监控中心，通过自动分析软件和自学习专家库，自动识别已知的各种系统软硬件故障和潜在风险，由专业IT服务人员主动、直接修复远程数据中心故障，同时全自动完成基于大数据的海量应用运行特征数据分析，直接给出数据中心系统选型优化方案，极大提高了数据中心运营管理效率。

格式：

PPT