一組數據需要觀察的話,我們需要了解一下他們的組成結構,正如我們要了解原子、分子、電子等的結構一個道理。

Z_t 表示一組數據,或一個時間序列。

(一)通用的幾個基本概念:均值、方差、標準差、協方差、相關係數

1、均值

均值(期望)是統計學中最常用的統計量,用來表明數據集中相對集中較多的中心位置。

數學表示: u_t=E(Z_t)

2、方差

方差是用來度量一組數據的離散程度。概率論中方差用來度量隨機變數和其期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。

數學表示: delta_{t}^{2}=E(Z_{t}-u_{t})^{2}

3、標準差

標準差(均方差),是離均差平方的算術平均數的平方根,用σ表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度。

數學表示: delta_t=sqrt{delta_{t}^{2}}

4、協方差

協方差用來度量兩個變數各個維度偏離其均值的程度,這與只表示一個變數誤差的方差不同。協方差的值如果為正值,則說明兩者是正相關的(從協方差可以引出「相關係數」的定義),結果為負值就說明負相關的,如果為0,也是就是統計上說的「相互獨立」。

數學表示: cov(Z_{t1},Z_{t2})=E(Z_{t1}-u_{t1})(Z_{t2}-u_{t2})

假設有兩個隨機變數X、Y,大致上有:

(1)若協方差為正數:X增大,Y增大;X減小,Y減小,即變化趨勢相同。

(2)若協方差為負數:X增大,Y減小;X減小,Y增大,即變化趨勢相反。

(3)若協方差為零:X與Y的變化沒有任何關係。

5、相關係數

相關係數是研究變數之間線性相關程度的量。求出協方差之後,我們考慮一個問題就是協方差對應這每一個「協」關係,他們對應得比值是多少,所謂對應的比值可以理解為每一個「協」距離整體的距離比值是百分之幾?兩個的「協」對應他們的整體距離的比值是百分之幾就能夠表示他們之間有多相關,這個相關係數越大,表示這兩個數值越有關係。可以理解為,如果兩個序列,一個是3000多這個基數去變動,一個是10000多這個基數去變動,他們的絕對數據肯定是不一樣的,但是他們的變動比率是一樣的,所謂相關性也可以理解為把兩個值統一化,在同一個維度來評價這兩個值的協方差關係,因此在同一個維度來衡量這兩個值的協方差關係就叫做相關係數。

數學表示: r(Z_{t_1},Z_{t_2})=frac{cov(Z_{t_1},Z_{t_2})}{sqrt{delta_{t1}^{2}}sqrt{delta_{t2}^{2}}}

相關係數的絕對值越大,相關性越強:相關係數越接近於1或-1,相關度越強,相關係數越接近於0,相關度越弱。通常情況下通過以下取值範圍判斷變數的相關強度:

(1) 0.8-1.0 極強相關

(2) 0.6-0.8 強相關

(3) 0.4-0.6 中等程度相關

(4) 0.2-0.4 弱相關

(5) 0.0-0.2 極弱相關或無相關

時間序列的特點是一維,因此如果借用統計學上面的指標衡量,有些不太適宜。根據時間序列的特點,形成了自協方差、自相關函數、偏自相關函數。看到前面都加了一個「自」,原因是時間序列沒法在找到一個別的數據和自己來進行比較;只能自己和自己來比較,自己和自己慢幾拍(滯後期)的這些數據進行比較,所以加入了一個「自」。

(二)時間序列自有的幾個基本概念:自協方差、自相關係數、偏自相關係數

1、自協方差

在統計學中,特定時間序列或者連續信號 Z_{t} 的自協方差是信號與其經過時間平移的信號之間的協方差。

數學表示:

r(k)=frac{1}{n}Sigma_{t=k+1}^{n}(Z_t-ar{Z})(Z_{t-k}-ar{Z})

可以認為自協方差是某個信號與其自身經過一定時間平移之後的相似性,自協方差 r(k) 就表示了在那個時延的相關性。

2、自相關係數(ACF)

自相關係數度量的是同一事件在兩個不同時期之間的相關程度,形象的講就是度量自己過去的行為對自己現在的影響。

數學表示: ACF(k)=Sigma_{t=k+1}^{n}frac{(Z_t-ar{Z})(Z_{t-k}-ar{Z})}{Sigma_{t=1}^{n}(Z_t-ar{Z})^2}

自相關(autocorrelation),也叫序列相關,是一個信號於其自身在不同時間點的相關度。非正式地來說,它就是兩次觀察之間的相似度對它們之間的時間差的函數。它是找出重複模式(如被雜訊掩蓋的周期信號),或識別隱含在信號諧波頻率中消失的基頻的數學工具。它常用於信號處理中,用來分析函數或一系列值,如時域信號。

3、偏自相關係數(PACF)

根據ACF求出滯後k自相關係數 ACF(k) 時,實際上得到並不是Z(t)與Z(t-k)之間單純的相關關係。

因為Z(t)同時還會受到中間k-1個隨機變數Z(t-1)、Z(t-2)、……、Z(t-k+1)的影響,而這k-1個隨機變數又都和z(t-k)具有相關關係,所以自相關係數裡面實際摻雜了其他變數對Z(t)與Z(t-k)的影響。

為了能單純測度Z(t-k)對Z(t)的影響,引進偏自相關係數(PACF)的概念。對於平穩時間序列{Z(t)},所謂滯後k偏自相關係數指在給定中間k-1個隨機變數Z(t-1)、Z(t-2)、……、Z(t-k+1)的條件下,或者說,在剔除了中間k-1個隨機變數Z(t-1)、Z(t-2)、……、Z(t-k+1)的干擾之後,Z(t-k)對Z(t)影響的相關程度。

數學表達:

PACF(k)=frac{E(Z_t-EZ_t)(Z_{t-k}-EZ_{t-k})}{sqrt{E(Z_t-EZ_t)^2}sqrt{E(Z_{t-k}-EZ_{t-k})^2}}=frac{cov[(Z_t-ar{Z_t}),(Z_{t-k}-ar{Z_{t-k}})]}{sqrt{var(Z_t-ar{Z_t}))}sqrt{var(Z_{t-k}-ar{Z_{t-k}}})}

計算某一個要素對另一個要素的影響或相關程度時,把其他要素的影響視為常數,即暫不考慮其他要素的影響,而單獨研究那兩個要素之間的相互關係的密切程度時,稱為偏相關。

總結:時間序列借用統計學的數據結構分析公式

(1)期望還是等與期望

(2)自協方差 = 協方差(期望用整個時間序列的期望,一個期望)

(3)自相關係數 = 相關係數(期望用整個時間序列的期望,一個期望)

(4)偏自相關係數 = 相關係數(期望用各自序列的期望,兩個期望)


推薦閱讀:
相关文章