1 正相關與負相關
1.1 相關性
事物之間可能會有關係,這可以通過數據看出。比如要買房的人越多(下圖的城鎮化率可以簡單理解為進城買房的人數),房價就越高,兩者的關係稱為 正相關 :
城鎮化有另外一個反作用,降低出生率。城鎮化和出生率之間的關係就是 負相關 ,也就是說城鎮化率越高、出生率會越低,所以說,「城鎮化是最好的避孕藥」:
1.2 股票組合
在現實生活中了解相關性是很有用處的,比如下面有三支股票,年度收益都是 :
可以看到藍色、綠色這兩隻股票走勢基本一致,也就是這兩者正相關;而藍色、紅色走勢相反,藍色上漲的時候紅色下跌,也就是這兩者負相關。基金經理會傾向於把負相關的兩支股票做成一個組合,這樣收益率也還是 ,但是整個組合波動會很小,整體看上去平穩上升。
這種相關性可以通過下面要介紹的 協方差 和 相關係數 來表示和計算。
2 矩形的面積
2.1 顏色
假設有兩個隨機變數,身高 和體重 ,很顯然這兩者應該是正相關的,也就是說身高增加體重也會隨著增加。
但是怎麼通過數學來表達呢?我們來看一個例子,下面是某班同學的身高體重:
這兩個隨機變數可以構成二維平面上的點 ,可以把它們畫在直角坐標繫上。我們先畫出表中的前兩個點:
很顯然,相對於第一個點 而言,第二個點 橫坐標增加了,同時縱坐標也增加了;也就是說第二個點代表的同學,身高增加了的同時體重也增加了,這兩個點是正相關的,我們在兩者之間畫一個紅色的矩形表示這兩者是正相關的關係:
現在加入第三個點 ,這位同學可能比較瘦高,他和第一、第二位同學負相關,用藍色的矩形來表示:
接著增加第四個點 ,它和前面三個點都是正相關;最後增加第五個點,它和去前面四個點全是正相關。所以這些矩形全是紅色的:
畫完之後整體看上去是紅色的,這說明 、 這兩個隨機變數整體上是正相關的關係,雖然其中間雜著兩個藍色的矩形。
2.2 面積
從圖形上可以看出紅色有優勢,說明是正相關。下面來看看如何通過代數計算出這個結果。從第一個紅色矩形開始:
可以算出這個紅色矩形的面積為正:
而某個藍色矩形:
它的「面積」為負:
所以把所有的矩形的「面積」加起來,如果為正那麼說明就是紅色矩形佔優勢,也就是正相關;反之則是負相關;為0的話說明哪個都不佔優勢,則是不相關。就這裡的具體問題而言,很顯然紅色更佔優勢,所以算出來為正(總共有 個矩形),是正相關。
2.3 一般化
如果有 個點的話,可以用:
來表示組成矩形的兩個頂點,那麼所有矩形的面積的和就可以表示為:
那麼:
3 協方差
可以看出要計算面積還是挺麻煩的,數學家給出了一個簡化的方案。
3.1 簡化
按照剛才的計算方法,比如說某一個點 ,需要和所有的 配對,然後計算出得到的矩形的面積和。數學家就想用 的均值也就是期望 來代替所有的 ,以及用 的均值也就是期望 來代替所有的 :
這樣之前的面積計算公式就從:
變為了:
如此,計算就被大大簡化了。下面用這種方法重新算下剛才的例子。
3.2 具體的例子
首先以 為原點,構建一個直角坐標系坐標系,它會把平面分為4個象限:
容易知道,一、三象限的點和 正相關,而二、四象限的點和 負相關。所以在一、三象限中各選一個點,它們和 構成的矩形是紅色的:
在第四個象限中有一個點,它和 構成的矩形是藍色的:
把所有矩形都畫出來的話(總共只有5個矩形,按照上節給出的演算法總共需要畫10個矩形,可見現有演算法確實大大簡化了,點越多簡化的效果越好),可以看到還是紅色佔優,因此總體來看 、 依然是正相關的:
3.3 協方差
還要考慮一點,每個點的概率是不一樣的,因此各個矩形的面積並非是平等的,或者說權重是不一樣的,所以需要對面積和進行加權平均,也就是對面積和計算數學期望,這就得到了:
設 是一個二維隨機變數,若 存在,則稱此數學期望為 與 的 協方差(Covariant),記作: 特別地有 。
設 是一個二維隨機變數,若 存在,則稱此數學期望為 與 的 協方差(Covariant),記作:
特別地有 。
很顯然會有:
4 相關係數
之前求出來的協方差是有單位的,比如身高 (單位:厘米)與體重 (單位:公斤)的協方差 的單位是:厘米 公斤。
假如又有一個隨機變數,同學的年齡 (單位:歲),它和體重的協方差 的單位為:歲 公斤。那麼到底體重與身高更正相關,還是體重與歲數更正相關?,因為單位的原因導致我們沒有辦法進行比較,所以:
對於二維隨機變數 ,各自的方差為:則:稱為隨機變數 和 的 相關係數 。
對於二維隨機變數 ,各自的方差為:
之前介紹過標準差是有單位的,比如剛才舉的例子身高 (單位:厘米)、體重 (單位:公斤)以及年齡 (單位:歲),相除之後:
單位就約掉了,變成沒有單位的數了,就可以進行比較了。比如剛才提到的身高 ,體重 以及年齡 ,假如說根據數據算出來:
馬上可以知道相對於年齡,身高與體重之間的正相關關係更強烈。
5 線性相關
「正相關」或者「負相關」實際指的是 和 之間線性相關(此處證明省略了,對推導感興趣的可以參加我們的課程《概率論與數理統計》):
和 除了「線性相關」之外,其實還可能是別的關係(下圖標出了相關係數,當相關係數不為0時,也就是說「正相關」或「負相關」時,在圖中都或多或少地呈現線性關係;當不具備線性關係時,比如說W形、圓圈形等,相關係數為0):
推薦閱讀: