企业宣传,产品推广,广告招商,广告投放联系seowdb

长周期时序预测有哪些优化点 一文汇总

长周期时序预测**疑问

长周期时期序列预测,指的是预测窗口较长一类时期序列预测疑问。普通来说,预测长度在50个点以上,就可以以为是长周期时期序列预测疑问。同时,预测长度的参与,会使得模型须要引入更长的历史序列,能力成功更好的预测。相比短周期时序预测,长周期时序预测关键面临的应战有以下几个方面。

长周期历史消息提取 :相比短序列,长序列由于其样本点更多,对历史消息的提取也愈加艰巨,模型容易随着输入历史序列长度的增长而过拟合。并且,长周期预测也更难捕捉对每个时期步有用的历史消息。

长周期预测 :时期序列预测模型普通状况下预测的准度会随着预测的长度参与而变差,这造成在长周期预测中会产生很多不稳固的起因,甚至超越一个时期步长度的预测结果齐全无法用。

运转效率 :随着序列的增长,模型须要处置更长周期的数据,造成模型在训练和推断中效率变低。

针对上述疑问,业内有一系列针对长周期时期序列预测的钻研上班。这篇文章就汇总了长周期时期序列预测代表性上班,带大家梳理长周期时序预测的处置方法。

长周期解码模式优化

长序列的一个应战是如何在解码环节中,能够更完善的和历史序列启动交互,进而成功解码的每个步骤都能失掉到历史长周期序列中最有用的时期步消息。

PETformer: Long-term Time Series Forecasting via Placeholder-enhanced Transformer 提出了一种不区分Encoder-Decoder的解码模式,驳回了placeholder-enhanced的模式。在Decoder部分经常使用几个可学习的向量作为输入,不再区分Encoder和Decoder,而是拼接到历史序列的token上,一同输入到一致Transformer,让待预测部分可以更人造的失掉历史序列消息。

Informer: Beyond efficient transformer for long sequence timeseries forecasting(AAAI 2021) 中也做了相似的操作。Informer依然区分Encoder和Decoder,然而在Decoder的前面会拼接一段历史序列,并且将残余待预测的时期步用0填充,相似placeholder-enhanced的模式。这里将Encoder的一部分序列拼接到Decoder前面,关键为了在长周期的历史序列中,愈加凸显近期序列的关键性。

长周期消息补充

在长周期中,有一些例如以长跨度为主的特色,包含自相相关数等,是普通的深度学习模型很难经过单纯的数据学到的。为了描写这部分特色,一些上班会经过人工抽取特色,或许辅佐义务的模式,讲这些消息引入出去。例如在Web Traffic比赛中,第一名的打算手动提取季度、年等长周期的自相相关数,间接作为额外的特色输入到模型中。

SELF-SUPERVISED CONTRASTIVE FORECASTING(ICLR 2024) 这篇论文中,经过在时期序列预测中引入对比学习,成功对Encoder建模窗口以外全周期时期序列消息的运行。长周期预测普通须要更长的历史序列作为输入,然而受限于历史序列窗口,很难完整描写所有历史序列。这篇文章提出了一种基于自相相关数的对比学习loss。在一个batch内,时期序列是来自同一个完整时期序列的多个窗口(也或许来自多个,本文关键以一个完整序列启动钻研),并且这些窗口大略率具备比拟大的时时期隔,由于是随机采样的。首先标志出每两个时期序列之间的时时期隔T,而后计算两两时期序列距离为T的自相相关数,这个自相相关数描写了这两个时期序列的相关相关。以这个自相相关数为label,构建对比学习的正样对,并以对比学习为指标优化序列表征。经过这种模式,成功了应用完整时期序列消息的目的,在示意空间中拉近在完整时期序列中T自相关性系数高的时期序列片段表征。

长周期简化模型

很多钻研都发现,一些基于Transformer等复杂模型结构的时期序列预测模型,在历史序列输入长度参与时,会产生过拟合的现象。由于历史输入的参与,解空间变大,时期序列往往还存在比拟大的噪声,造成Transformer等模型容易产生过拟合疑问。因此,一些上班在长周期预测中简化了模型结构,用线性等更基础的网络结构构建了鲁棒性更强的长周期时序预测模型。

Client: Cross-variable Linear Integrated Enhanced Transformer for Multivariate Long-Term Time Series Forecasting 这篇文章中,构建了一个Linear和Transfomrer相联合的长周期时序预测模型。其中Transformer建模变量间相关,而Linear模型关键复杂对序列趋向项的建模,用线性模型对长周期的趋向项关键消息启动捕捉。

SparseTSF: Modeling Long-term Time Series Forecasting with 1k Parameters 也是一个关键用线性网络启动长周期时序预测的上班。关于长周期时期序列,依据某个周期,将其宰割成多个子片段,如图中所示,每个周期内的相反位置点采样进去拼接成一个序列。这样做相当于把节令项拆解进去,每个序列只保管趋向项。每个子片段经常使用一个线性模型启动独立的预测,再各个片段聚合到一同。为了缓解采样带来的消息损失以及意外点影响,文中先经常使用一个一维卷积,对街坊节点消息启动聚合,失掉更为平滑的序列。

频域提取长周期全局消息

之前咱们引见过频域建模。在长周期预测中,频域消息的运行的关键性愈加凸显。由于频域代表了序列的全局消息,而这种消息当序列比拟长时,在时域中是很难提取的。

例如, TFDNet: Time-Frequency Enhanced Decomposed Network for Long-term Time Series Forecasting(2023) 应用短时傅里叶变换,将原始时期序列分红多个窗口,并假定每个窗口内的时期序列是颠簸的,对每个窗口内的时期序列区分启动傅里叶变换,最终失掉一个时域-频域矩阵。这个矩阵形容了原始时期序列的时域频域相关。在启动了趋向项、节令项合成之后,经常使用短时傅里叶变换区分对两个部分启动处置,失掉两个相应的矩阵。经过这种模式,将频域消息引入出去,成功对全局消息更间接的描写。

长周期功能优化

当输入序列较长时,就须要启动模型功能的优化。不只在时期序列,在NLP、CV等畛域,功能优化也是一个**钻研点。在NLP中,有很多针对Transformer长序列输入的功能优化,都可以间接运行到时期序列畛域。这里引见2个时期序列畛域的模型功能优化。

Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting(2020) 为了优化attention的计算效率,提出将齐全attention改成部分attention,让attention计算变得更稠密,优化模型的运算效率。详细包含经常使用log的模式每隔2、4、8等计算一次性attention,以及关于近期的时期步计算attention,或许两种联合的模式。

Informer: Beyond efficient transformer for long sequence timeseries forecasting(AAAI 2021) 针对长周期Transformer,设计了一种优化运算效率的attention方法。attention score具备十分显著的长尾性,少数的score比拟大,大少数score很小,因此只需重点建模那些关键的相关即可。假设一个query和其余key的attention score凑近平均散布,那么这个query就是便捷的把其余value加和求平均,意义不大。因此Informer中提出计算每个query的attention score打扩散布敌对均散布的KL散度,关于关键性不大的query,key就和睦这些query计算attention,构成了sparse attention的结构,带来计算效率的大幅优化。

本文转载自​​,作者:​​

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender