赞
踩

黄伟, 刘存才, 祁思博
中国电子科技集团公司第五十四研究所,河北 石家庄050081
摘要:针对设备端口链路流量,提出两种基于长短期记忆网络的预测模型。第一种针对在大时间粒度下平稳变化的流量;第二种则针对在小时间粒度下波动剧烈的非平稳流量。通过选用不同的数据划分方式与模型训练方法,构建两种具有不同网络结构的流量预测模型。实验结果表明,前者在处理平稳变化的流量时能够达到极高的预测精度,后者在处理非平稳流量时具有明显优于SVR模型、BP神经网络模型的预测效果。在第二种预测模型的基础上,提出了参数可调的链路拥塞预警方案,实验证明该方案具有一定的可行性。
关键词: 长短期记忆网络 ; 机器学习 ; 网络流量预测 ; 非平稳流量预测 ; 时间序列预测
中图分类号:TP393
文献标识码:A
doi: 10.11959/j.issn.2096−109x.2019066
,其中,T为时间延迟,D为嵌入维度。训练时用来参照的真实数据为xt+T,训练的目的即寻找函数 f(x)使
。
在第一类预测模型中,T为1,
。模型的训练往往需要相邻时间的数据具有较为严格的依赖关系,并且数据本身需要呈现一定的周期特征。通常可以借助SVR、神经网络等方法,学习到相邻数据之间的函数关系。在获得新的数据时,可以输入训练好的模型中以获取接下来的数据预测。训练数据一般选取多个完整周期以保证训练的准确性。这种方法的局限在于,模型只能学习到同一周期之间相邻数据的函数关系,并不能体现相邻周期的数据变化。此外,一旦训练数据不具备周期性,这种学习的收效甚微。
在第二类预测模型中,T可以为1或大于1。此时,模型将使用更多时段的历史数据而不仅是相邻时间的数据进行训练。一般来说,这种方式划分的训练数据更能反映流量数据一段时间的变化。T 的取值越大则训练模型考虑的时间范围越广,相应地,模型的学习能力越容易饱和。循环神经网络对时序变化的数据具有很好的学习能力,文献提出了一种基于EMD的循环神经网络,它对具有周期性变化特性的非平稳流量有较好的预测效果。文献针对具有混沌特性的非线性时间序列提出了一种名为Elman-NARX的神经网络模型。文献将协同进化算法引入Elman神经网络,提高了对混沌时间序列的预测精度。文献提出一种基于循环小波神经网络的预测模型,相较传统神经网络模型有更好的预测效果。然而上述模型在处理较长的时间序列时,均存在发生梯度消失和梯度爆炸的风险。LSTM 网络不同于上述循环神经网络,可以很好地解决梯度消失问题。它具有长短期记忆能力,适用于较长时间序列的预测。目前,LSTM网络已经较多地在交通流量预测的相关研究中被发掘和使用。文献提出一种基于 k-means 聚类的 LSTM 模型,其只考虑了相邻时间点的数据变化。文献提出了一种三层混合的 LSTM 交通流量预测模型,文献提出了一种基于 LSTM 网络的网络流量预测模型,然而它们在时间延迟上的取值均为 1,不足以反映数据的长期变化,模型存在改进空间。本文以LSTM网络为基础,提出了一种改进的时段划分方法,将训练数据的时段区间与时间延迟参数相对应,对模型进行阶段性地训练和预测。不同于传统LSTM模型中训练过程与预测过程相分离的特性,本文的网络流量预测模型能够随实时数据不断地进行更新。模型的训练和预测依赖于最新获取的流量数据,同时能继承模型之前的参数,从而使预测结果保留历史数据的部分特性。
对于本文要处理的网络流量数据,预测难度更大一些,尤其是对于在小时间粒度下波动剧烈的非平稳流量。在时间刻度上突发的无规则特性,无疑会加大学习流量数据真实的变化趋势的难度。本文旨在不忽略极端数据的情况下,保证预测模型的稳定性。针对这一问题,本文在下文的中将再做探讨。
,计算这段流量序列的均值。


均直接简化表示为{xi}。假设一段时间长度为T的未来流量与前D、T时间长度内的流量相关。这里的D与T与前文含义相同。本文的目的是预测下一段T时间长度内的流量均值。之所以做均值的预测,是因为流量数据的波动性导致无法做出T时间长度内每一时刻流量的精确预测。设已知的流量序列为
。对此序列做如下分割


的预测,记为
。把 T 预测点连起来,即流量序列
。计算这一段序列的均值即可作为下一段T时间长度内流量均值的预测。

图1 LSTM网络结构
Cell表示神经网络中的LSTM内核,每一个对应特定的时间步。W1、B1、W2、B2为向量形式,具体维度和Cell的大小相关。Initial_state代表LSTM网络中首个时间步输入核的初始状态,训练开始时取为0即可。随着流量序列{xi}的更新,在进行新一轮的训练时,initial_state的取值为上一轮训练结束时Cell所对应的final_state。每一轮训练的次数应根据实际情况选定。本文将该模型命名为LSTM流量预测模型。训练次数过多有可能导致过拟合现象的发生,本文建议在不影响模型预测准确率的基础上适当减少每一轮的训练次数。关于模型预测准确率的计算,本文将在实验部分说明。

的预测,记为
。下一段T时间长度内流量均值的预测同样表示为

图2 LSTM-modified网络结构
Prediction=1T∑jTx˜j+(D+1)T (7)" role="presentation" style=" box-sizing: border-box; list-style: none; display: inline; line-height: normal; text-indent: 0px; text-align: left; letter-spacing: normal; word-spacing: normal; overflow-wrap: normal; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border-width: 0px; border-style: initial; border-color: initial; ">
。本文通过统计准确预测和不可信预测的比例来衡量各个模型的预测效果。

图3 运营商DNS流量均值预测(以20 min为时间单位)
观察
图3
可以发现,预测值基本与真实值重合,这表明 LSTM 模型对平稳流量有极强的预测能力。


Prediction=1T∑jTx˜j+(D+1)T (7)" role="presentation" style=" box-sizing: border-box; list-style: none; display: inline; line-height: normal; text-indent: 0px; text-align: left; letter-spacing: normal; word-spacing: normal; overflow-wrap: normal; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border-width: 0px; border-style: initial; border-color: initial; ">
表2 表明,对于 MMPP 流量的预测, LSTM-modified模型具有最高的准确率和最低的不可信率,其中LSTM-modified模型的预测准确率相较于其他模型优势明显,比SVR模型高12.05%,比BP模型高8.43%,比LSTM模型高7.23%。这说明本文对LSTM网络的改进方法切实有效,能够有效地提高模型对MMPP流量的预测能力。 表3表明,对于SelfLike流量的预测,LSTM模型具有最高的预测准确率和最低的不可信率,其中 LSTM 模型的预测准确率比 SVR 模型高27.71%,比BP模型高1.21%,比LSTM-modified模型高 4.82%。可见神经网络模型在预测自相似流量时比SVR模型更具优势。不过由于自相似流量的特点,即在任何时间尺度上都具有相当大的突发性,各神经网络模型对SelfLike流量的预测效果没有过多的差距。综合来说,LSTM-modified模型相比于其他模型的适应性更强。因此,在不知道流量类型与特点的情况下,使用LSTM-modified 模型进行流量预测是一个不错的选择。实验中LSTM-modified模型的预测过程如图4、图5所示。 Prediction=1T∑jTx˜j+(D+1)T (7)" role="presentation" style=" box-sizing: border-box; list-style: none; display: inline; line-height: normal; text-indent: 0px; text-align: left; letter-spacing: normal; word-spacing: normal; overflow-wrap: normal; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border-width: 0px; border-style: initial; border-color: initial; ">
图4 MMPP流量均值预测(以5 min为时间单位)
图5 SelfLike流量均值预测(以5 min为时间单位)
从图中不难发现,模型的预测值会随着真实值的出现而不断改变。直观上看,预测值基本保持在真实值波动的中间区域。这说明 LSTMmodified模型确实能够学习到流量的变化趋势,并且具备一定程度的流量预测能力。仔细观察即可发现,图中确实存在一些极端的真实值,不过它们并没有对模型接下来的预测造成很大的干扰。这符合本文在第 3 节中的假设,并且印证了LSTM-modified模型的稳定性。


图6 流量上界预测与拥塞判断
《网络与信息安全学报》是由工业和信息化部主管,人民邮电出版社有限公司主办的信息安全领域的学术刊物,现为中国网络空间安全协会会刊,中国科技核心期刊、CCF推荐中文科技期刊。办刊宗旨:汇聚安全创新思想,传播学术研究成果,提升科学研发实力,服务国家信息安全。

中国网络空间安全协会会刊
中国科技核心期刊
CCF推荐中文科技期刊
关注我们,查看更多内容
点击阅读原文,查看完整内容
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。