示意学习作为深度学习中的**,近期越来越多的被运行到了期间 序列畛域中,期间序列剖析的示意学习时代曾经来了。本文为大家带来了2020年以来顶会的5篇期间序列示意学习关系的**上班梳理。
1.Unsupervised Scalable Representation Learning for Multivariate Time Series(NIPS'20)
本文的期间序列示意学习方法思绪起源于经典的词向量模型CBOW。CBOW中的假定是,一个单词的上下文示意应该和该单词的示意比拟近,同时和其余随机采样的单词示意比拟远。本文将这种思绪运行到期间序列示意学习中 ,首先须要结构CBOW中的上下文(context)和随机负样本,结构方法如下图所示。首先选用一个期间序列xref,以及xref中的一个子序列xpos。,xref可以看成是xpos的context。同时,随机从其余期间序列,或许当后期间序列的其余期间片段中采样多个负样本xneg。这样就可以结构相似CBOW的损失函数了,让xref和xpos离得近,同时让xref和其余负样本xneg距离远。
在模型结构上,本文驳回了多层空泛卷积的结构,这局部模型结构在之前的文章中有过具体引见。
2.Unsupervised representation learning for time series with temporal neighborhood coding(ICLR'21)
本文提出的方法在正负样本的选用上和损失函数的设计上相比文章有必定区别。首先是正负样本的选用,关于一个以时辰t为中心的期间序列,文中驳回一个高斯散布来划定其正样本的采样范围。高斯散布以t为中心,另一个参数是期间窗口的范围。关于期间窗口范围的选用,文中驳回了ADF测验的方法选用最优的窗口跨度。假设期间窗口范围过长,或许造成采样的正样本和原样本不关系的状况;假设期间窗口过小,会造成采样的正样本和原样本堆叠局部太多。ADF测验可以检测出期间序列在坚持稳固的期间窗口,以此选用最适宜的采样范围。
在损失函数方面,文中关键处置的是伪负样本的疑问。假设将下面选定的窗口外的样本都视为负样本,很有或许会出现伪负样本的状况,即原本是和原样 本关系的,但由于距离原样本比拟远而被误以为是负样本。例如期间序列是以年为周期的,期间窗口选用的是1个月,或许会把去年同期的序列以为是负样本。这会影响模型训练,使模型收敛艰巨。为了处置这个疑问,本文将窗口外的样本不视为负样本,而是视为没有无label样本。在损失函数中,给每个样本设定一个权重,这个权重示意该样本为正样本的概率。这种方法也被称为Positive-Unlabeled (PU) learning。最终的损失函数可以示意为如下方式:
3.A transformer-based framework for multivariate time series representation learning(KDD'22)
这篇文章自创了预训练言语模型Transformer的思绪,宿愿能够在多元期间序列上经过无监视的方法,借助Transformer模型结构,学习良好的多元期间序列示意。本文重点在于针对多元期间序列设计的无监视预训练义务。如下图右侧,关于输入的多元期间序列,会mask掉必定比例的子序列(不能太短),并且每个变量区分mask,而不是mask掉同一段期间的一切变量。预训练的优化指标为恢复整个多元期间序列。经过这种方式,让模型在预测被mask掉的局部时,既能思考前面、前面的序列,也能思考同一期间段没有被mask的序列。
下图展现了无监视预训练期间序列模型对期间序列预测义务带来的成果优化。左侧的图示意,不同有label数据量下,能否经常使用无监视预训练的RMSE成果对比。可以看到,无论有label数据量有多少,参与无监视预训练都可以优化预测成果。右侧图示意经常使用的无监视预训练数据量越大,最终的期间序列预测拟合成果越好。
4.Time-series representation learning via temporal and contextual contrasting(IJCAI'21)
本文驳回对比学习的方式启动期间序列示意学习。首先关于同一个期间序列,经常使用strong和weak两种数据增强 方法生成原始序列的两个view。Strong Augmentation指的是将原始序列划分红多个片段后打乱顺序,再参与一些随机扰动;Weak Augmentation指的是对原始序列启动缩放或平移。
接上去,将strong和weak两个增强的序列输入到一个卷积时序网络中,失掉每个序列在每个时辰的示意。文中经常使用了Temporal Contrasting和Contextual Contrasting两种对比学习方式。Temporal Contrasting指的是用一种view的context预测另一种view在未来时辰的示意,指标是让该示意和另一种view对应的实在示意更凑近,这里经常使用了Transformer作为时序预测的主体模型,公式如下,其中c示意strong view的Transformer输入,Wk是一个映射函数,用于将c映射到对未来的预测,z是weak view未来时辰的示意:
Contextual Contrasting则是序列全体的对比学习,拉近相反序列生成的两个view的距离,让不同序列生成的view距离更远,公式如下,这里和图像对比学习的方式相似:
5.TS2Vec: Towards Universal Representation of Time Series(AAAI'22)
TS2Vec**理路也是无监视示意学习,经过数据增强的方式结构正样本对,经过对比学习的优化指标让正样本对之间距离,负样本之间距离远。本文的**点关键在两个方面,第一个是针对期间序列特点的正样本对结构和对比学习优化指标的设计,第二个是联合期间序列特点提 出的档次对比学习。
关于正样本对结构方法,本文提出了适宜期间序列的正样本对结构方法:Contextual Consistency。Contextual Consistency的**理路是,两个不同增强视图的期间序列,在相反期间步的示意距离更凑近。文中提出两种结构Contextual Consistency正样本对的方法。第一种是Timestamp M asking,在经过全衔接后,随机mask一些期间步的向量示意,再经过CNN提取每个期间步的示意。第二种是Random Cropping,选取有公共局部的两个子序列互为正样本对。这两种方法都是让相反期间步的向量示意更近,如上图所示。
TS2Vec的另一个**点是档次对比学习。期间序列和图像、人造言语的一个关键差异在于,经过不同频率的聚合,可以失掉不同粒度的期间序列。例如,天粒度的期间序列,按周聚合可以失掉周粒度的序列,依照月聚合可以失掉月粒度的序列。为了将期间序列这种档次性融入对比学习中,TS2Vec提出了档次对比学习,算法流程如下。关于两个互为正样本对的期间序列,最开局经过CNN生成每个期间步向量示意,而后循环经常使用maxpooling在期间维度上启动聚合,文中经常使用的聚合窗口为2。每次聚合后,都计算对应期间步聚合向量的距离,让相反期间步距离近。聚合的粒度始终变粗,最终聚分解整个期间序列粒度,逐渐成功instance-level的示意学习。