背景

時間序列的預測通常會面臨以下兩種情況:

  • 長期的預測需要考慮趨勢信息(長期依賴),短期的預測需要考慮細粒度的波動性(短期依賴);
  • 一些週期規律不太明顯的場景,依賴關係會隨著時間動態變化。

難點

如何建模長期(動態)的依賴?具體有一下兩方面的原因:

1. 現有的RNN會存在梯度消失和梯度爆炸的問題。(LSTM/GRU+一些初始化策略只能在一定程度上緩解該問題)

2. 需要同時考慮長期依賴和短期依賴,往往是 trade-off。

相關工作

目前最有效的方案是多尺度 pattern 的建模。現有工作主要可以分為兩類:

  • 第一類是通過層次化建模,具體也可以分為兩小類:
  1. 第一小類是通過建立不同粒度的隱層,低層的更新頻率較高,更高層的更新頻率較低。

多隱層 RNN 模型,下圖所示,第一個隱層是在單詞級別的建模,第二個隱層是在句子級別的建模。

相關文章:

1. A Clockwork RNN. ArXiv 2014
2. Dilated Recurrent Neural Networks. NIPS 2017
3. Hierarchical Multiscale Recurrent Neural Networks. ICLR 2017

多隱層 CNN 模型,典型的就是 Deepmind 提出的 WaveNet: A Generative Model for Raw Audio.

這類方法存在的問題

引用某篇論文的原話:"Yet there has been a lack of empirical evidence showing that this type of models can actually capture the temporal dependencies by discovering the latent hierarchical structure of the sequence" (現有的方法不能夠很好的證實這種模型能夠真正的捕獲時間上的依賴。)

2. 第二小類是將原始數據分解得到不同粒度的數據,再分別建模。

典型的就是 KDD 2018 上這篇:陳同學在路上:時序數據分析-【論文閱讀】(1) 通過小波分解得到不同粒度的序列。

相關文章:(第三篇文章的講解:陳同學在路上:序列數據建模-尺度自適應的RNN)

1. Multilevel Wavelet Decomposition Network for Interpretable Time Series Analysis. KDD 2018
2. Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction. AAAI 2017
3. Learning to Adaptively Scale Recurrent Neural Networks. ArXiv 2019

存在的問題

XXX
  • 第二類是設計門機制

基本思想:通過修改 RNN 的內部結構,如果認為當前時刻的信息不重要,則丟棄當前時刻的信息。

Phased-lstm (NIPS 2016) 增加一個 time 門

Skip rnn (ICLR 2018) 增加 skip 門

相關論文

1. Phased LSTM: Accelerating Recurrent Network Training for Long or Event-based Sequences. NIPS 2016
2. Skip RNN: Learning to Skip State Update in Recurrent Neural Networks. ICLR 2018

存在的問題

此時認為不重要信息,可能在後續會認為是重要的,卻被丟棄了。

推薦閱讀:

相關文章