《科技创新与品牌》杂志社学术

基于流式处理的CDN异常智能检测技术研究

摘要:如何智能化、敏捷化的开展内容分发网络(CDN,Content Delivery Network)质量监测分析优化,是陕西移动当前面临的重要挑战。本课题提出基于流式数据计算框架对用户访问日志、设备运行数据、网络链路性能数据、平台性能质量大数据进行实时大数据纳管,并基于机器学习算法对CDN运行指标进行异常检测与根因智能定位,解决运营支撑时效性差、准确率低的问题。该成果已在陕西移动现网部署实践,CDN运营支撑效率明显提升。

关键词:CDN;流式处理;机器学习;异常检测;根因智能定位

引言


陕西移动CDN通过多级分布式组网方式,具备Tbps级CDN业务分发能力。但随着设备数量的指数级上升,跨专业、跨地域的协同运维支撑能力面临巨大挑战,也对陕西移动的CDN运维支撑能力提出更高要求。


CDN运维支撑能力现状


陕西移动CDN目前主要通过传统的数据网管系统进行设备纳管、告警监控工作,基于互联网探针拨测,收集业务下载速率、首包时延、成功率等指标监测判定CDN业务质量,存在CDN业务全流程运营时效性差、准确率低、协同性不足等问题。


CDN异常检测整体架构


针对陕西移动CDN运营支撑痛点,需要构建CDN全景质量画像体系,快速锁定告警根因,准确定位问题点,提升工作效率。通过评估设计,需搭建大数据平台,构建采集CDN质量性能数据、指标关联训练、异常检测及根因分析四大关键核心能力。

2.1 质量大数据采集入库能力

全量采集CDN业务日志、服务器性能、路由器/交换机属性、网络链路数据等四大模块质量数据,为构建CDN全景质量运行画像提供全维度数据支撑。

2.2 海量数据实时关联压缩能力

以CDN业务日志为例,全天日志达到TB级,指标的实时计算与关联分析的存储压力较大。随着指标采集粒度、维度不同,检测分析复杂度对算力提出了极大要求。

2.3 端到端异常检测能力

CDN业务多样性、动态性特性对异常检测准确度要求较高,需通过积累的样本数据反复进行训练,才可以获得良好的异常检测性能,满足业务异常的快速检测要求。

2.4 告警智能根因分析能力

CDN需要快速对业务质差指标进行根因定位,解决传统根因分析需各专业运维专家协同核查处置效率低、时间成本高的问题。


关键能力的创新实践


3.1 基于ELK的质量性能大数据采集模块部署

利用开源ELK架构,搭建CDN全量性能大数据库。基于Filebeat、Metricbeat、Snmpbeat、Heartbeat四个组件,实时采集用户访问日志、主机性能日志、网络性能、拨测数据。通过私有协议发送到实时消息队列的规范化处理后,进行临时性数据保存。对相应的性能数据进行适配采集,实现采集组件与大数据属性的最佳适配。实时流处理框架如图1所示:

3.2 基于实时流处理的数据关联压缩创新实践

针对上述四大维度性能数据,采用实时流处理框架,基于滑动时间窗口,对不同维度、时间粒度的各类指标时间序列的同步实时计算,最终保留关联压缩的指标数据,大幅压缩智能异常检测处理的数据量,提升实时流处理性能。

选取消息队列组件对上报的海量信息进行中间处理,确保满足海量数据不同颗粒度的匹配准确度及时效性要求。通过实时数据关联压缩流处理模块,系统对不同对象、不同维度的原始数据进行关联计算和实时数据压缩,极大减少了后续处理模块的数据计算压力。

3.3 CDN端到端异常智能检测应用创新

传统异常检测方法需要预先具备明确的异常模式,若异常模型判断标准准确性不足,易使检测效果较差。本课题采用机器学习与深度学习混合的算法模型,既满足指标监测快速部署要求,又可提升指标动态性对检测准确性要求。

3.4 CDN告警智能根因定位运维创新

利用对指标数据更细维度的挖掘与分析,通过时序数据相关性算法获取指标波动产生的因果关系,并计算可能是根因的概率,通过机器学习的方式快速给出质差资源的关联指标及可能根因概率,极大提升了问题定位的时效性和准确性。


实践效果


4.1 数据压缩能力提升

该成果在CDN现网试点,实时采集数据量峰值为12万条/s,数据压缩后,指标流速峰值变为239条/s,压缩比超100倍。随着设备数量增加,数据压缩比最高可达到120倍,压缩效果显著。

4.2 异常指标检测能力提升

由于采用了基于机器学习和深度学习的联合检测机制,随着指标历史数据的积累,指标检测进入到长时间跨度异常检测模块,准确率得到显著提升,再通过专家对异常点进行标注确认,经过深度学习异常检测,反周期性异常指标也得到了精准检测,最终异常检出率从64.3%提升至97.7%。

4.3 故障处理效率提升

成果实施后,CDN异常监测处理时长从1.2小时降低至14分钟,故障处理时长降低82%,人均效率提升40%,极大提升工作效率.。


结论


该成果已在陕西移动CDN平台进行试运行,可显著降低异常检测、根因分析算力的要求,降低检测成本。同时具备较高准确率,也改变了传统故障排查模式,大幅提升运营效率。由于目前仍处于少量设备链路的接入试点,面对全省设备的纳管接入,该解决方案将面临更大数据处理能力挑战。         


参考文献

[1] Chandola V,Banerjee A, and Kumar V.Anomaly detection: A survey. ACM Computing Survey, 41(3): 1-58,20095

[2] Gandhimathi L,Murugaboopathi G. A novel hybrid intrusion detection using flow-based anomaly detection and cross-layer features in wireless sensor network.Automatic Control and Computer Sciences, 54(1):62-69,2020

[3] Feng F, Liu x and Yong B.  Anomaly detection in ad-hoc networks based on deep learning model:A plug and play device. Ad Hoc Networks,84: 82-89, 2019

责编/高妍