欢迎光临广东齐思达信息科(kē)技有(yǒu)限公司官方网站!

齐思达信息科(kē)技

广东齐思达信息科(kē)技有(yǒu)限公司成為(wèi)值得您信赖的贴心系统集成商(shāng)

全國(guó)服務(wù)热線(xiàn):

0757-23819339

新(xīn)闻动态

了解最新(xīn)公司动态及行业资讯

首页>新(xīn)闻动态>行业资讯

返回列表

热门关键词: 信息安全    云计算    弱電(diàn)工程    机房建设    IT基础架构   

AIOps 轻松提高桌面云运维效率

日期:2022-11-18    阅读数:565

11月16日,OFweek第七届人工智能(néng)产业大会暨行业年度颁奖典礼在深圳举办。深信服AIOps技术凭借在人工智能(néng)领域的实力和优势,获得维科(kē)杯 · OFweek 2022 人工智能(néng)行业“技术突破奖”。当天,深信服高级研发技术专家易佳受邀出席大会,发表《桌面云场景下的AIOps技术实践》的演讲,介绍了桌面云运维遇到的挑战,以及如何利用(yòng)AIOps简化桌面云运维等内容。

1.jpg

人工智能(néng)产业大会现场


桌面云运维面临诸多(duō)挑战 

近年来,桌面云為(wèi)数字化办公提供了有(yǒu)力支撑。与此同时,桌面云也容易面临第三方软件兼容性、蓝屏、木(mù)马、应用(yòng)卡慢、响应延迟等问题,这些问题的背后暴露出来的可(kě)能(néng)是私有(yǒu)云资源不足、硬件故障难以定位、网络故障等深层次问题。

2.jpg

桌面云运维的挑战

為(wèi)此,深信服提出了AIOps 智能(néng)运维一體(tǐ)化技术方案。该方案通过采集桌面云的日志(zhì)、链路和指标数据,执行故障预测、异常检测、关联推理(lǐ)等算法,為(wèi)用(yòng)户提供智能(néng)分(fēn)析服務(wù)。


“AIOps的数据采集引擎基于Golang实现了插件化探针,支持采集Windows、Linux、Docker等多(duō)类指标数据,可(kě)以跨平台、多(duō)应用(yòng)地进行动态采集,也支持Prometheus协议和导出,在数据采集上实现了高效和可(kě)扩展。”易佳补充。


历经三次迭代,打造更优运维體(tǐ)验

易佳介绍,随着用(yòng)户诉求和用(yòng)户體(tǐ)量的的不断变化,深信服AIOps数据模型与AI框架演进了三个版本。


第一个版本适用(yòng)于小(xiǎo)规模用(yòng)户,是一套轻量级监控分(fēn)析系统,支持时序数据、告警数据、统计分(fēn)析和容器化部署,也支持主机、虚拟机数据采集做简单AI分(fēn)析,但是DB/存储与业務(wù)耦合严重,算法效果难保障,难以支撑大规模虚拟机接入。


第二个版本是轻量级AIOps引擎,支持OpenAPI和数据统一调度,引入缓存机制,实现了存算分(fēn)离。但OpenAPI、Requests Handler和Prometheus容易遇到瓶颈,导致體(tǐ)验欠佳。

3.jpg

从第三个版本开始,深信服打造了全栈的AIOps引擎。在该版本中,面对数据上报的性能(néng)瓶颈问题,抽象数据接口,实现Requests Handler负载均衡;其次是设计了投递分(fēn)级,内存磁盘双对列的模式,為(wèi)低优先级数据设立单独通路,可(kě)以优先保障高优先级数据入库;同时,设计了多(duō)级分(fēn)表优化了数据结构,这样可(kě)以保留横向扩展能(néng)力。


另外,為(wèi)了平衡实时性与准确度,减少重复数据,AIOps可(kě)以按采集指标區(qū)分(fēn)不同采集周期,例如设定10s采集一次CPU,20s采集一次memory;服務(wù)器型号、磁盘大小(xiǎo)等静态数据尽量只采集一次。


最后,针对多(duō)维异构数据进行了冷热分(fēn)层处理(lǐ),冷数据存档供AI离線(xiàn)分(fēn)析和模型训练,热数据实时监控和展示。


在AI算法方面,易佳介绍,“桌面云AIOps算法包括基于bagging策略的分(fēn)段線(xiàn)性回归算法、基于网格搜索的缩扩容模型、基于资源约束算法和贪心策略的虚拟机新(xīn)增模型、基于时间序列特征提取和随机森林的闲置资源识别模型等”,基于这些算法,最终形成了包含AIOps算法、AI调度决策、OpenAPI、数据管理(lǐ)、服務(wù)化等功能(néng)在内的AIOps基础结构。


4.jpg

AIOps 实践与落地效果

易佳表示,AIOps可(kě)以快速识别出卡慢故障等异常问题。通过引入50多(duō)个规则、采集800多(duō)个维度数据,实现20多(duō)个机器學(xué)习算法,诊断出30+核心卡慢场景。AIOps的监测分(fēn)析能(néng)力已经能(néng)够全方位地支撑大盘、集群、主机、虚拟机、网络、存储、应用(yòng)软件全栈监控与分(fēn)析。

5.jpg

在算法效果上,桌面云卡慢/故障异常检测准确率达到87%。实施卡慢缓解建议后,约有(yǒu)47%的问题能(néng)够得到明显缓解,AIOps的智能(néng)诊断能(néng)力,可(kě)以覆盖桌面云65%的已知资源卡慢问题。

6.jpg

易佳最后总结,AIOps未来会增加更多(duō)的反馈和模型的自更新(xīn)机制实现多(duō)业務(wù)场景的覆盖。同时,基于业務(wù)画像和运维知识图谱,实现精细化故障诊断,打造让用(yòng)户满意的产品體(tǐ)验。


分(fēn)享到: