時序數據的聚類分析不需要有標註的數據,人工成本低;通過聚類,可以發現數據中隱含的模式或相關性。因此,時序數據的聚類被廣泛使用在各種場景。

由於時序數據的高度異質性,即包含雜訊、缺失值、異常值,長度、採樣率、變化速率不一,因此不能簡單地視為高維向量,傳統的基於歐式空間的聚類演算法

不能被直接利用。

聚類演算法的好壞主要從兩個方面來衡量:

  • 準確性
  • 效率

現有的聚類方法大致可以分為以下三類:

  1. 基於統計的聚類這類方法從時序數據中抽取統計特徵,如平均值、方差、傾斜度,以及一些高階特徵等,如ARIMA模型的係數、分形度量(fractal measures)等。或是劃分窗口,在每個窗口內計算這些統計特徵,再進行匯總。
  2. 基於形狀的聚類許多時序數據往往具有相同的變化模式(如上升、下降、上升等),因此可以根據這些時序數據的形狀相似性將變化模式相似的序列聚在同一個類,可以忽略數據在整幅、時間尺度等的差異。

    一些人工定義的距離(如DTW)具有尺度和平移不變性,因此被廣泛用於基於形狀的聚類。由於人工定義的距離是數據無關的,方便利用到各種領域的數據上,一個研究方向是定義新的距離度量,然後結合一個現成的聚類演算法(k-means或層次化聚類等)。

    這類方法中最先進的是[1], 該方法利用現有的距離度量的特性(scale-, translate-, and shift-invariant),提出了一種計算聚類中心的演算法。現有方法主要有兩方面的缺點:(1)時間複雜度高;(2)易受到異常值、雜訊的幹擾

    另一類是基於shapelets的方法[2,3],shapelets即一些短的序列,這些序列能夠體現出整條序列的局部變化模式。

    基於形狀的聚類方法基本都有開源實現,python包tslearn中基本都包含了。

API Reference - tslearn 0.1.27 documentation?

tslearn.readthedocs.io

3. 基於深度學習的聚類

該類方法主要基於autoencoder模型將時序數據轉換為低維的隱空間,現有的變分自編碼器(variational autoencoder)等雖然能夠在一定程度上容忍雜訊、異常值等。但目前存在兩方面的不足:

  • 缺乏一種通用的方法來捕獲時序數據的特性,從而得到有效的隱空間。
  • 在得到的隱空間中需要一種合適的相似性度量考慮時間上的特性。

目前最先進的方法是[4],該方法同時訓練一個autoencoder和k-mean(基於KL散度的loss)。autoencoder模型中先用1D卷積,然後接一個雙向的LSTM,因此考慮了時序數據的局部和時間上的特徵,但這也是時序數據常用的處理套路。

目前基於靜態數據(向量數據)的聚類演算法也有一定的發展,主要可分為以下幾類:

(1)聯合優化stacked autoencoder和k-means目標[5-7]。其中k-mean目標是基於KL散度計算的。(論文[6]和[7]貌似發生了撞車??)

(2)將變分自編碼器(VAE)和高斯混合模型(K個聚類對應K個高斯分量)結合[8]。

(3) 同時訓練K個autoencoders,每條數據根據哪個autoencoder得到的重建誤差最小,該數據就屬於哪個類[9,10]。(論文[9]和[10]貌似也發生了撞車??)

總結:基於深度學習的時序數據聚類還有較大的發展空間,目前基於靜態數據的方法不能很好的考慮到時間序列在時間上的平移、伸縮等特性。

[1] k-Shape: Efficient and Accurate Clustering of Time Series. SIGMOD 2015.

[2] Clustering Time Series using Unsupervised-Shapelets. ICDE 2012.[3] Unsupervised Feature Learning from Time Series. IJCAI 2016.[4] Deep Temporal Clustering: Fully Unsupervised Learning of Time-Domain Features . 2018.[5] Towards k-means-friendly spaces: Simultaneous deep learning and clustering. ArXiv 2017.[6] Unsupervised deep embedding for clustering analysis. ICML 2016.[7] Deep Clustering via Joint Convolutional Autoencoder Embedding and Relative Entropy Minimization. ICCV 2017.[8] Variational Deep Embedding: An Unsupervised and Generative Approach to Clustering. ArXiv 2017.[9] Deep Unsupervised Clustering Using Mixture of Autoencoders. ArXiv 2018.[10] Deep Clustering Based on a Mixture of Autoencoders. 2019.

推薦閱讀:

相關文章