這是為了回答

有沒有大神能通俗易懂地不照搬百度地解釋一下算標準差分母那個n-1自由度的概念??

www.zhihu.com
圖標

通俗易懂?那肯定是說不清的!因為這本來就是數學問題。。。

首先你需要正確理解什麼是自由度。

所謂自由度呢,直觀上來說,是指其值可以自由變化的變數的個數。如果有n個自由變化的隨機變數,哪怕他們之間是相關的,只要任意兩個之間相關性不為1或者-1,這個系統的自由度也是n。(其實準確的描述是,他們的協方差矩陣如果是full rank的)

舉例子:X是n維隨機向量,如果它的協方差矩陣是full rank的,它的自由度就是n。

然後,假設 y=a』X,a是一個常數向量,y成了標量,y的自由度是1。

再然後,假設 z=AX,z的自由度是A的rank數。

現在考慮這種情況,如果有n個可以自由變化的隨機變數,這組隨機變數有一個實例realization出現,你能觀察到這個realization,並且取了一個平均數。目前為止,這並不影響這組隨機變數的自由度。但是!考慮以下問題:

如果在確保這組realization的平均數為定值constant的前提下,自由度還能是n嗎?答案是n-1。為什麼?在任意n-1自由變化的前提下,由於平均數是定值,所以剩下的那個變成固定值了。

其實這個適用於以下這種情況(最常見的)。

如果你想像中有一個隨機變數X,這是你不可觀測的,而你能看到的,只是它反覆抽取的n個實例,這n個實例的平均數(作為一個統計量)往往被看作是該隨機變數的期望值E(X)的估計值,那麼就把它看作那個期望值E(X),應該差不了多少(大數定理)。在已知期望值的條件下去估計方差和標準差,你要用到單個實例減去期望值的平方和,然後除以幾呢?

當然可以除以個數n,如果期望值是真實的話,應該除以自由變化的個數n,這樣的話,方差是無偏的,很容易證明。

E[ n^{-1} { (X_1 - E(X))^2 + (X_2 - E(X))^2 + ... + (X_n - E(X))^2 } ] = V(X)

在這個公式里,請注意,每一項

X_i - E(X) = varepsilon_i

其中 varepsilon_i 是真實的error,這是由最開始我們假設的模型決定的

X_i = E(X) + varepsilon_i

也就是說,每一個實例X_i都是由相同的期望值加上一個不同的且不可見的error。我們要估計的方差呢?其實是 varepsilon_i 的方差。

所以上面那個式子也可以寫成

E[ n^{-1} { varepsilon_1^2 + varepsilon_2^2 + ... + varepsilon_n^2 } ] = V(X)

無偏,沒有任何問題。

問題在這裡:期望值E(X)是未知的!期望值在上面的式子里被其估計值替代了,而估計值也是個隨機變數的實例。。。

上面的那個式子就要變成

E[ n^{-1} { (X_1 - ar{X})^2 + (X_2 -  ar{X})^2 + ... + (X_n - ar{X})^2 } ]

為了能了解為什麼要用自由度n-1而不是實例個數n,我們就要深入探討這個公式了。。。

首先介紹矩陣和向量的表達式

X = Zc + E

其中X Z 和E都是大向量,X包含所有 X_i ,E包含所有 varepsilon_i ,而Z都是1。請對號入座保持等式正確性。

平均數 ar{X} 其實是這麼算的:

(ZZ)^{-1}Z X

這是最小二乘法。而殘差residual則為

hat{E} = X - hat{X} = X -Z(ZZ)^{-1}Z X = M_z X = M_z E

這個自己推吧。。。不難。其中 M_z 關於Z的等冪矩陣。而 hat{E} 里每一項都是殘差,並且被用在估計方差上了,

hat{V}(X) = E[ n^{-1} { hat{varepsilon}_1^2 + hat{varepsilon}_2^2 + ... + hat{varepsilon}_n^2 } ]

好,真正的關鍵來了。這個等冪矩陣 M_z 不是full rank的!雖然是n乘以n的大矩陣,但是它的rank是n-1!

這意味著什麼?這意味著,殘差項(也就是你用來估計方差的,就是這些 hat{varepsilon}_i ,有n個)雖然是真實error E的n個線性組合,但是實際上只用了n-1個error的有效信息。

回想一下一開始提到的AX,A的rank決定自由度的例子~

直觀了吧?你如果用期望值的估計值來計算方差,其中只包含了n-1個error的有效信息。

所以無偏的方差估計量是:殘差的平方和除以真正意義上自由變化的殘差個數(殘差的自由度)。


如果想通俗易懂的表達,該怎麼表達呢?或者說,為了V(X)無偏,該怎麼辦呢?這麼表達:

答案是把個數n替換成自由度,也就是真正自由變化的隨機變數個數 n-1。

這話絕對沒錯,而且直切重點!但。。。

是不是一臉懵逼?

為什麼是n-1可以理解,隨便哪本教科書都有寫證明,換成n-1就行。但是為什麼這個數恰好又是自由度呢?理由全都是數學公式啊。。。


推薦閱讀:
相关文章