1 正相關與負相關

1.1 相關性

事物之間可能會有關係,這可以通過數據看出。比如要買房的人越多(下圖的城鎮化率可以簡單理解為進城買房的人數),房價就越高,兩者的關係稱為 正相關

城鎮化有另外一個反作用,降低出生率。城鎮化和出生率之間的關係就是 負相關 ,也就是說城鎮化率越高、出生率會越低,所以說,「城鎮化是最好的避孕藥」:

1.2 股票組合

在現實生活中了解相關性是很有用處的,比如下面有三支股票,年度收益都是10\%

可以看到藍色、綠色這兩隻股票走勢基本一致,也就是這兩者正相關;而藍色、紅色走勢相反,藍色上漲的時候紅色下跌,也就是這兩者負相關。基金經理會傾向於把負相關的兩支股票做成一個組合,這樣收益率也還是10\% ,但是整個組合波動會很小,整體看上去平穩上升。

這種相關性可以通過下面要介紹的 協方差相關係數 來表示和計算。

2 矩形的面積

2.1 顏色

假設有兩個隨機變數,身高X 和體重Y ,很顯然這兩者應該是正相關的,也就是說身高增加體重也會隨著增加。

但是怎麼通過數學來表達呢?我們來看一個例子,下面是某班同學的身高體重:

這兩個隨機變數可以構成二維平面上的點(X,Y) ,可以把它們畫在直角坐標繫上。我們先畫出表中的前兩個點:

很顯然,相對於第一個點(152,45) 而言,第二個點(160,54) 橫坐標增加了,同時縱坐標也增加了;也就是說第二個點代表的同學,身高增加了的同時體重也增加了,這兩個點是正相關的,我們在兩者之間畫一個紅色的矩形表示這兩者是正相關的關係:

現在加入第三個點(172,44) ,這位同學可能比較瘦高,他和第一、第二位同學負相關,用藍色的矩形來表示:

接著增加第四個點(175,64) ,它和前面三個點都是正相關;最後增加第五個點(180,80),它和去前面四個點全是正相關。所以這些矩形全是紅色的:

畫完之後整體看上去是紅色的,這說明XY 這兩個隨機變數整體上是正相關的關係,雖然其中間雜著兩個藍色的矩形。

2.2 面積

從圖形上可以看出紅色有優勢,說明是正相關。下面來看看如何通過代數計算出這個結果。從第一個紅色矩形開始:

可以算出這個紅色矩形的面積為正:

(160-152)	imes (54-45)=72

而某個藍色矩形:

它的「面積」為負:

(172-152)	imes (44-45)=-20

所以把所有的矩形的「面積」加起來,如果為正那麼說明就是紅色矩形佔優勢,也就是正相關;反之則是負相關;為0的話說明哪個都不佔優勢,則是不相關。就這裡的具體問題而言,很顯然紅色更佔優勢,所以算出來為正(總共有 {5choose 2} 個矩形),是正相關。

2.3 一般化

如果有n 個點的話,可以用:

(x_i,y_i),quad (x_j,y_j),quad i,j=1,2,cdots,n

來表示組成矩形的兩個頂點,那麼所有矩形的面積的和就可以表示為:

A=sumlimits_{ile j}(x_i-x_j)(y_i-y_j)

那麼:

 X,Y的相關性=egin{cases} 正相關,&A > 0\ 負相關,&A < 0\ 不相關,&A = 0\ end{cases}

3 協方差

可以看出要計算面積還是挺麻煩的,數學家給出了一個簡化的方案。

3.1 簡化

按照剛才的計算方法,比如說某一個點(x_i,y_i) ,需要和所有的(x_j,y_j) 配對,然後計算出得到的矩形的面積和。數學家就想用x_j 的均值也就是期望mu_X 來代替所有的x_j ,以及用y_j 的均值也就是期望mu_Y 來代替所有的y_j

所有的(x_j,y_j)xrightarrow{quad替換為quad} (mu_X,mu_Y)

這樣之前的面積計算公式就從:

A=sumlimits_{ile j}(x_i-x_j)(y_i-y_j)

變為了:

A=sumlimits_{i}(x_i-mu_X)(y_i-mu_Y)

如此,計算就被大大簡化了。下面用這種方法重新算下剛才的例子。

3.2 具體的例子

首先以(mu_X,mu_Y) 為原點,構建一個直角坐標系坐標系,它會把平面分為4個象限:

容易知道,一、三象限的點和(mu_X,mu_Y) 正相關,而二、四象限的點和(mu_X,mu_Y) 負相關。所以在一、三象限中各選一個點,它們和(mu_X,mu_Y) 構成的矩形是紅色的:

在第四個象限中有一個點,它和(mu_X,mu_Y) 構成的矩形是藍色的:

把所有矩形都畫出來的話(總共只有5個矩形,按照上節給出的演算法總共需要畫10個矩形,可見現有演算法確實大大簡化了,點越多簡化的效果越好),可以看到還是紅色佔優,因此總體來看XY 依然是正相關的:

3.3 協方差

還要考慮一點,每個點的概率是不一樣的,因此各個矩形的面積並非是平等的,或者說權重是不一樣的,所以需要對面積和進行加權平均,也就是對面積和計算數學期望,這就得到了:

(X,Y) 是一個二維隨機變數,若EBig[(X-mu_X)(Y-mu_Y)Big] 存在,則稱此數學期望為X Y 的 協方差(Covariant),記作:

Cov(X,Y)=EBig[(X-mu_X)(Y-mu_Y)Big]

特別地有Cov(X,X)=Var(X)

很顯然會有:

  • Cov(X,Y) > 0 時,XY 正相關,即兩者有同時增加或者減少的傾向
  • Cov(X,Y) < 0 時,XY 負相關,即兩者有反向增加或者減少的傾向
  • Cov(X,Y) = 0 時,XY 不相關

4 相關係數

之前求出來的協方差是有單位的,比如身高X (單位:厘米)與體重Y (單位:公斤)的協方差Cov(X,Y) 的單位是:厘米cdot 公斤。

假如又有一個隨機變數,同學的年齡Z (單位:歲),它和體重的協方差Cov(Z,Y) 的單位為:歲cdot 公斤。那麼到底體重與身高更正相關,還是體重與歲數更正相關?,因為單位的原因導致我們沒有辦法進行比較,所以:

對於二維隨機變數(X,Y) ,各自的方差為:Var(X)=sigma^2_X,quad Var(Y)=sigma^2_Y

則:
ho_{XY}=frac{Cov(X,Y)}{sigma_Xsigma_Y}稱為隨機變數X Y 的 相關係數 。

之前介紹過標準差是有單位的,比如剛才舉的例子身高X (單位:厘米)、體重Y (單位:公斤)以及年齡Z (單位:歲),相除之後:


ho_{XY}=frac{Cov(X,Y)(厘米cdot公斤)}{sigma_X(厘米)sigma_Y(公斤)}=frac{Cov(X,Y)}{sigma_Xsigma_Y}


ho_{YZ}=frac{Cov(Z,Y)(歲cdot公斤)}{sigma_Z(歲)sigma_Y(公斤)}=frac{Cov(Z,Y)}{sigma_Zsigma_Y}

單位就約掉了,變成沒有單位的數了,就可以進行比較了。比如剛才提到的身高X ,體重Y 以及年齡Z ,假如說根據數據算出來:


ho_{XY}=0.7,quad 
ho_{ZY}=0.53

馬上可以知道相對於年齡,身高與體重之間的正相關關係更強烈。

5 線性相關

「正相關」或者「負相關」實際指的是XY 之間線性相關(此處證明省略了,對推導感興趣的可以參加我們的課程《概率論與數理統計》):

XY 除了「線性相關」之外,其實還可能是別的關係(下圖標出了相關係數,當相關係數不為0時,也就是說「正相關」或「負相關」時,在圖中都或多或少地呈現線性關係;當不具備線性關係時,比如說W形、圓圈形等,相關係數為0):

推薦閱讀:

相关文章