运营商发展创新业务转型升级,网络运维需“化繁为简”
通信世界网消息(CWW)互联网的迅速普及使得网络流量激增,传统的流量监控方式是给监测指标设置水位线或波动幅度,当低于/高于水位或超过波动范围时触发报警,但静态阈值没有适应变化的能力,需要人工维护,但在线路非常多的情况下,人工维护将耗费非常大。随着软硬件的发展,机器算力大幅提高,人工智能(Artificial Intelligence,AI)的应用得以实现。让系统具备自动适应变化的能力,能够预测网络流量,将网络流量作为阈值主要参考,自动调整阈值水位,并且对网络故障进行定位,成为了网络监控领域的关键问题。利用人工智能实现自适应的智能网络是当前阶段运营商可以落地且直接受益的人工智能运用方向。
人工智能加速发展人工智能是研究机器以人类思维方式学习、推理、决策的当前最前沿研究方向之一,是计算机科学中难度很大、挑战性很强的一个分支,当前人工智能仅能模仿人类能力的子片段,还处于弱人工智能阶段。
人工智能这个概念已经存在几十年,20世纪60年代神经网络的概念就已经被提出,但神经网络的正式使用是最近几年由于整体算力的大幅提高才得以实现的。20世纪80年代,人工智能主要专注于定义明确的领域,发展基于规则的专家系统。人工智能的知识来自于人类专家,并通过“if-then”逻辑去表达,随后集成在硬件中,这些系统被成功用于解决某些严格定义的问题,然而这种系统无法处理不确定性,即使存在明显缺陷,但其系统引领了重要的解决方案,该方面的技术开发目前仍然很活跃。近年来,得益于数据量的增大,计算能力的增强,以及优化的机器学习技术,人工智能兴起,人工智能系统常常能在特定任务方面胜过人类,如象棋、语音图像识别、围棋等并且发展速度正在加快。可以预见,性能最强大的系统都会基于机器学习方法,而不是一套人工编码的规则。
运营商网络监控需求近几年,4G时代的移动互联网迅速普及,中国基本进入人联网时代,这带来了网络流量的激增。由于通信业的充分竞争,服务定制化、套餐多样化、定向流量、不限量套餐等新业务开始大规模运营,这种大流量、多样化、定制化的流量服务给网络管理施加了很大压力。不论是从安全性还是服务优化的角度考虑,网络监控都是运营商必须重点部署的一环,网络监控出问题,给用户最直接的感受就是服务质量下降,会降低民众对运营商的好感度。
传统监控方式有两种做法:一是给指标M1设置一个水位线,当M1低于(或高于)水位,触发报警;二是给指标M1设置同比、环比波动幅度,比如,同比波动20%、环比波动10%触发报警。
以上两种方式对于大流量的监控效果不理想,这种静态阈值长期来看没有适应变化的能力,需要人工维护,而且报警准确性也依赖于同环比数据的稳定性。在线路非常多的情况下,人工维护将耗费非常大。让系统具备自动适应变化的能力,能够预测网络流量,根据网络流量作为阈值主要参考,自动调整阈值水位,并且对网络故障进行定位,成为了网络监控领域的关键问题。利用人工智能实现自适应的智能网络是当前阶段运营商可以落地且直接受益的人工智能运用方向。
基于人工智能的智能网络监控网络流量预测方法网络流量监控的核心问题是对网络流量的精确预测,预测让被动应对转变为主动选择应对策略,预测问题是目前人工智能较为成熟的应用方向。预测结果的好坏除了受客观条件的影响外,预测模型是流量预测的关键,按建模方法一般把预测模型分为两类。
一是基于线性时间序列建模的预测方法。该建模方法结构简单、运算快,可用于短期预测,但简化了实际流量的假设条件,模型中流量随时间序列平滑变化,未考虑流量的波动性等非线性变化。典型模型有AR、ARMA、ARIMA、FARIMA等。
二是基于人工智能的网络流量预测。网络流量不是平稳变化,而是存在很大的波动性,因此接近真实情况的模型必定是非线性的,融合多种理论的人工智能流量预测相比于线性时间序列,精度大幅提升。其中,神经网络算法以其自学习、非线性逼近性强,是当前广泛使用的网络流量预测算法。
人工智能网络重构
人工智能虽然由互联网科技公司推动,但对于通信运营商而言,人工智能带来更多机遇。运营商在有多年的数据积累,形成了超大规模的数据,这些数据尚未给运营商带来很大的价值,人工智能让数据变现成为可能,海量数据成为了宝贵的资源。在产业互联网领域,运营商先天具有构建数据壁垒的能力,具有数据先发优势。
当前,运营商积极进入ICT产业链,在发展创新业务转型升级的同时,也让网络运维变得更加复杂,依靠人力支撑迅猛发展的网络已越来越不可行。使用人工智能来重构通信网络,通过网络智能化来提升运维效率、保证用户体验、完成智能化的升级和转型,成为运营商的必然选择。
人工智能可以在以下三个层面对网络进行重构。
基础设施层:按基础设施的作用,针对不同层次的硬件,提供不同的人工智能学习推理能力,例如中心数据机房最先使用人工智能,用于全局流量调度,并且具有数据集中、数据量大、易于集中训练等优势,在边缘侧提供现场级的人工智能加速器,加快设备的智能化。
网络和业务控制层:人工智能具有自学习自推理能力,对于网络的部署、优化、维护有更快的计算和更优的结果,按照网络层级,实现KPI、路由、网络策略的优化等,智能优化网络的覆盖能力、高热点区域等。
运营和编排层:在大数据平台,运营商的OSS(Operation Support System,运营支撑系统)和BSS(Business Support System,业务支撑系统)数据可基于人工智能做深度挖掘,在编排层(包括产品编排、业务编排、端到端资源编排)引入人工智能,分析运营业务量并进行预测,由静态应对转为动态规划。
智能网络监控系统一个完整的智能网络监控系统包含:人工智能流程预测模块、异常初步检测模块、疑似异常二次检测/故障初步定位模块、故障报警模块等4个主要模块。
人工智能流量预测模块:通过人工智能算法,进行历史数据学习,形成流量预测能力。
异常初步检测模块:通过人工智能流量预测模块预测的实时流量和检测策略配置的策略组合成检测策略,与实时数据进行检测,初步检测出疑似异常。
疑似异常二次检测/故障初步定位模块:根据初步检测出的疑似异常,对相关的日志进行分析并且对相关的网络设备进行自动检测,根据日志分析和自动检测的结果,判定是否是出现故障,并且对故障进行初步定位。
故障报警模块:根据故障分析的结果和告警策略的配置,对告警进行过滤,发送告警给客户。
另外,智能网络监控系统的工作流程如下:通过人工智能的智能预测功能预测流量,通过流量差异初步判断网络是否存在故障;初步分析故障是真实故障还是误报;利用诊断型分析技术,找出产生故障的原因,及时精准地发现并解决网络问题,从而降低故障的响应和处理时间,降低运维成本,提高用户满意度。
小结网络监控是运营商通信服务中重要的一环,网络流量监控的核心问题是对网络流量的精确预测,通过分析对比当前的预测方法可以发现,相比于线性时间序列,基于人工智能的网络流量预测精度大幅提升;对于智能网络重构,可以在基础设施层、网络和业务控制层、运营和编排层等不同的层级选择不同的人工智能策略;在实际应用中的智能网络监控系统应由人工智能流程预测、异常初步检测、疑似异常二次检测/故障初步定位、故障报警等4个主要模块组成。搭建基于人工智能的智能网络监控在提高检测准确度、削减人工成本、提升用户感知等方面能够帮助运营商实现价值。