快捷搜索:  

运维数据:建设与落地AIOps的基石

        【每科技网】

【自】【全】球IT咨询机构Gartner【在】2017【年】正式提【出】AIOps【以】【来】,【国】内外各【个】企业与厂商【都】【在】积极探索与尝试利【用】【大】数据、机器【学】习技术【来】改【进】【和】增强传统IT运维【能】力(如【在】监控、【自】【动】化【和】服务管理等【方】向)。

关【于】AIOps,业界【有】很【多】【的】【定】义【和】解释,但笔者【在】2019【年】底参加Gartner【全】球I O【大】【会】【时】,【分】析师Charley Rich【一】语【道】破【了】【本】质: 智【能】运维另外【一】【个】名字【就】【是】数据【分】析;(My name is AIOps, but you can call me Data Analytics ) 。【所】【以】,拨开迷雾,除【了】各【种】各【样】数据应【用】场景、高深复杂【的】算【法】【和】酷炫【的】【可】视化,其最基础【的】【部】【分】【就】【是】数据 运维数据【是】构建【和】落【地】AIOps【的】基石。

运维数据驱【动】AIOps【成】【为】必选项

业务增【长】速度快、架构复杂度指数级升高,带【来】【的】【是】运维数据【的】极【大】变化。传统运维数据【一】般仅涉及【到】底层基础设施【以】及【部】【分】应【用】,但【是】【在】【以】【用】户体验【和】业务结果【为】核心【的】外向型运维管理模式【下】,运维数据【的】边界已然被打开【了】。

现【在】【的】运维数据【不】仅包括【面】向【多】层技术栈【的】各类参数与文件,【同】【时】【还】包括【了】各【种】【用】户体验【的】数据【以】及与企业休戚相关【的】核心业务质量KPI等,如【下】图【所】示。

【面】向【全】栈【的】运维数据

运维数据【的】另外【一】【个】特点【是】数据类型【的】【多】【样】性(Variety),【可】【分】【为】【时】序型指标、追踪(关联)模型、志数据、配置管理数据、告警【事】件、【工】单数据【和】运维知识/运维知识图谱等类型。

运维数据边界【的】开放,【同】【时】意味【着】数据量【的】极速暴涨,【以】某【大】型企业运维【部】门【的】数据【为】例,【在】2017【年】数据处理量稳【定】【在】150亿条/【天】, 2018【年】【的】数据【是】800亿条/【天】,【而】【到】2019【年】【中】处理量已【经】达【到】【了】惊【人】【的】2000亿条/【天】,数据洪水带【来】价值挖掘【成】【本】【也】越【来】越高。

运维监控另【一】【个】突【出】特点【是】【问】题【发】现【的】敏捷性,故障【发】【生】【的】【同】【时】【就】【要】根据数据达【成】【事】件【的】【产】【生】与消息通知。因此【大】【部】【分】运维数据【都】【是】流式数据,数据【的】价值随【着】【时】间【的】流逝【而】降低,因此必须实【时】计算并给【出】秒级响应。

运维监控最核心任务【之】【一】【就】【是】【对】业务应【用】【的】故障预防、【定】位与处置。【而】【在】处理突【发】故障【时】,现【有】【工】具【和】解决手段存【在】效率低、【不】准确、【不】及【时】【的】【问】题,因【为】【我】【们】【面】向【的】IT环境架构比【以】往规模更【大】、复杂度更高、海量数据【的】挖掘更困难,【而】处理海量、实【时】、【多】【样】【的】数据并【产】【生】高价值【的】【工】【作】恰恰【是】机器【学】习【的】特【长】。因此,利【用】机器【学】习等AI技术【对】运维数据【进】【行】处理【的】AIOps,【成】【为】运维【发】展【的】必然走向。

【面】向智【能】运维【的】数据体系【方】案

落【地】AIOps战略,【一】【方】【面】【要】强调运维数据【的】基础【作】【用】,另【一】【面】【要】形【成】运维数据治理与应【用】【的】【全】局体系,围绕规划、系统与实施【三】【个】阶段,【面】向运维数据【的】【全】【生】命周期与业务导向结果,【从】数据【的】整体规划、运维数据源、数据采集、数据【的】计算与处理、指标管理体系规划与实施、专业运维数据库【的】建立【以】及数据【的】典型应【用】场景等【多】角度【着】手,如【下】图【所】示。

【【面】向AIOps【的】数据体系建设】

【面】向将【来】【的】基【于】数据驱【动】【的】运维管理模式将【以】【主】【动】、集【中】、业务价值【为】核心,构建【一】【种】颠覆传统运维【的】【全】货币管理【方】【法】:

●【从】IT系统【的】各【个】【对】象,【以】及现【有】监控【工】具【中】获取【全】量,海量【以】及【多】【样】【的】运维数据;

●将指标、【事】件、告警、志、【工】单等各类运维数据【在】运维【大】数据系统【上】【进】【行】统【一】存储与处理;

●通【过】机器【学】习【和】先【进】【的】运维场景【分】析【方】【法】,【主】【动】识别【和】响应数据模型潜【在】【的】【问】题,评价IT基础设施【和】应【用】【对】【于】业务运营【的】影响。

数据【作】【为】企业【的】核心资【产】,提升数据【分】析【能】力、数据决策水平【以】及数字化运维效【能】,努力营造 基【于】数据【说】话、基【于】数据管理、基【于】数据决策 【的】【工】【作】氛围【是】数字化转型【的】【行】【动】【方】针。

【对】【于】运维团队,【面】向【不】断变化【的】业务与极速挑战,更【要】【用】 夯实数据基础,提升数据质量,稳步推【进】数据应【用】 【作】【出】表率。借助货币【的】运维数据管理模式,【能】【对】IT系统【以】及业务【进】【行】高效精准【的】管理,辅助故障根因【分】析,【有】效降低MTTD(Mean Time To Detect,平均故障检测【时】间)【和】MTTR(Mean Time To Restore,平均故障恢复【时】间),并【大】幅减轻运维【工】【作】压力,显著降低【成】【本】,【不】断提升服务质量【和】【用】户体验。

运维数据【的】典型应【用】场景

【所】【有】运维数据【的】智【能】运维场景,【都】【是】AIOps【本】身【的】应【用】场景,【这】【里】【用】【问】题【发】现、智【能】告警、故障诊断、数据预测等几【个】典型场景【进】【行】举例【说】明。

(1)智【能】异常检测:企业IT系统规模【的】扩【大】、运维环境【的】复杂化、监控数据量【的】海量增【长】,使【得】运维【人】员【从】海量【的】数据【中】【发】现【问】题【的】难度【也】越【来】越【大】。【而】智【能】异常检测通【过】基【于】历史数据模型【的】异常检测等【方】【法】,【能】够【自】【动】、实【时】、准确【地】【从】监控数据【中】【发】现异常,【为】【后】续故障【的】【分】析与处理提供基础。根据【对】象【的】【不】【同】异常检测【可】划【分】【为】数据源异常检测、文【本】异常检测、数据源异常检测。

(2)智【能】异常预测:【在】实际【的】运维【过】程【中】,故障往往【不】【是】独立存【在】【的】。海恩【法】则告诉【我】【们】,任何【不】安危【的】【事】故【都】【可】【以】预防。智【能】异常预测通【过】【对】重【要】特性数据【进】【行】预测算【法】【学】习【来】达【成】故障【的】提【前】诊断、【从】【而】避免损失。故障预测【的】典型场景包括:磁盘故障预测、网站故障预测【以】及内存泄露预测等。

(3)故障关联【分】析:【在】运维【过】程【中】,各类监控【工】具每【天】【会】【产】【生】【大】量冗余【的】告警,【而】【这】些告警【之】间【可】【能】存【在】【一】些关联,只【有】找【到】【产】【生】告警【的】根【本】原因才【能】快速、【有】效【地】【对】故障【进】【行】处理。关联【分】析【可】【以】【用】【于】【发】现隐藏【在】【大】型数据集【中】【有】意义【的】联系。【在】智【能】运维【中】,【我】【们】通【过】【对】历史数据【的】【学】习【和】【分】析,【发】现【有】意义【的】关联数据,再通【过】【对】关联数据【的】【分】析建立业务与硬件【的】拓扑关系,【从】【而】达【成】故障【的】提【前】预警【以】及根源【分】析。

(4)故障根因【分】析:【对】故障【进】【行】根源【分】析【是】【在】众【多】【可】【能】引【起】故障【的】因素【中】,追溯【到】导致故障【发】【生】【的】症结【所】【在】,并找【出】根【本】性【的】解决【方】案。利【用】机器【学】习【可】【能】者深度【学】习【的】【方】【法】,【我】【们】【可】【以】找【出】【不】【同】因素【之】间【的】强相关关系,并利【用】【这】些关系,推断【出】哪些因素【是】根【本】性【的】因素。故障根因【分】析【可】【以】帮助【用】户快速诊断【问】题、提高故障【的】【定】位速度【以】及修复效率。

(5)容量规划预测:【为】保证业务【的】正常运营,企业需【要】【对】容量【进】【行】合理【的】评估。【过】【多】【的】预留容量【会】造【成】浪费、增加企业【成】【本】;【而】【过】少【的】容量则【可】【能】带【来】故障、造【成】业务损失。【而】随【着】IT架构【的】广泛云化,容量评估【也】【不】仅仅【是】【对】硬件需求【的】预测,更【有】【可】【能】【是】【为】优化业务运【行】【成】【本】【而】【进】【行】【的】服务平台选择【的】关键。利【用】智【能】运维【中】【的】解决【方】案,通【过】【分】析业务量、业务性【能】【以】及资源【的】占【用】情况【的】历史数据,并结合业务量预测数据【来】建立容量规划模型,【从】【而】【在】保证业务性【能】【的】【同】【时】帮助企业节省运营【成】【本】。

(6)业务与性【能】关联【分】析:应【用】故障【以】及性【能】【问】题【发】【生】【时】,往往【会】影响【用】户体验【进】【而】【对】业务造【成】影响,【在】智【能】运维【方】案【里】,通【过】建立业务关键指标与性【能】【之】间【的】关系模型,【从】海量【的】历史数据【中】【分】析性【能】与业务【之】间【的】非线性、【多】因素关系,【从】【事】【后】【的】影响评估、【事】【前】【的】What-if预测【分】析等【多】【方】【面】【来】考虑性【能】【问】题【对】业务【的】影响。比如通【过】【分】析IT性【能】提升与降低【对】业务【好】坏【的】量化影响【来】快速【发】现业务与IT性【能】【之】间【的】量化关系,【分】析IT性【能】【对】业务【的】影响程度。

(7)告警压缩:企业各【种】监控【工】具【会】【产】【生】海量【的】告警信息,【这】些告警信息【中】【可】【能】存【在】【大】量【的】冗余告警甚至形【成】告警风暴,【对】运维【人】员【产】【生】极【大】干扰。传统运维平台无【法】【对】告警风暴【进】【行】【有】效处理,【而】【在】智【能】运维【中】,【我】【们】针【对】短【时】、【大】量、甚至【是】持续【的】冗余告警,【可】【以】通【过】相似度、相关性判断【对】【这】些冗余告警【进】【行】合并,【从】【而】【为】运维【人】员提供【有】效【的】告警信息,【大】幅降低运维【工】【作】难度、提升运维KPI。

(8)智【能】化故障处理:传统运维管理【中】【对】故障【的】处理非常依赖运维【人】员【的】【一】【个】【工】【作】,但【人】【的】【一】【个】【工】【作】无【法】覆盖【所】【有】故障范围,运维【人】员【一】【个】【工】【作】【不】足【可】【能】造【成】运维效率低【下】【可】【能】者【产】【生】错误决策。【而】【在】智【能】运维【中】,将API接入【的】实【时】监测结果【可】【能】预测结果引入决策知识库(智慧【大】脑)智【能】【生】【成】决策建议,并根据实际结果及趋势判断采【用】【的】处理策略,【可】【以】【是】【人】【工】处理【可】【能】者【自】【动】处理。故障智【能】处理【可】【以】减少【问】题排查【的】【时】间、【大】幅提高【问】题解决【的】效率,提升企业运维标准化程度。

总结【和】展望

运维数据【作】【为】AIOps【的】最基础构【成】,无疑【起】【到】【了】基石【的】【作】【用】。企业【在】实施AIOps【时】,必须【从】最开始【就】注重运维数据,建设数字化运维数据体系,践【行】数据灯塔【国】与应【用】模式,【面】向业务与【用】户体验【不】断迭代与优化,才【能】【把】AIOps战略落【到】实处。

运维数据:建设与落地AIOps的基石

您可能还会对下面的文章感兴趣:

最新评论
  • 留言时间:2020-05-31 01:33:30卢子瑄 庆贺 一个人心量有多大,事业就有多大;一个人心能容多少,成就就有多少;一个人的成就,在于日积月累;一个人的成功,在于坚毅不拔。愿你人生精彩!
  • 留言时间:2020-05-23 01:50:31柴瀵烨 希望 忙忙碌碌,祈求舒舒服服,黑暗中前行惟盼自我点盏灯,别人的光难以长久照耀我路,还幸想起有你的指引,一路前行。
查看所有评论
加载中......
发表评论