Mathful Review of Linear Model

市面上講線性模型/回歸的書，大多從motivation到結構，一股濃郁的計量經濟味兒撲面而來——我、不、喜、歡。

我決定自己寫個線性模型的review，希望過年前寫得完。【果然沒寫完】

本文預備知識：（高等）數理統計、高等代數（矩陣論）

◆?◆

上課的時候，我總覺得線性模型是高等代數版的數理統計，實則理解上出現了偏差——與其說它是XX版的XXXX，毋寧說，它之於數理統計，相當於高等代數之於解析幾何。

廣泛些，將統計系的三門基礎課——線性模型、概率論、數理統計——與數學的三大分支對應，應是「線模同代數，概率如分析，數統似幾何」。

如果讓我寫本高代的書，我一定會最先從線性方程組到矩陣講起。

同理，如果寫一個線性模型的review，我必然會從回歸方程組到隨機矩陣（向量）講起——從高斯馬爾科夫定理講起，到底什麼玩意兒……

好了，我開始講（zhuangbi）了。

1、隨機向量與隨機矩陣

1.1 引言

我們考慮多元回歸方程組：

$egin{equation} left{ egin{array}{lr} { m y}_1=eta_0+eta_1{ m x}_{11}+cdotcdotcdot+eta_p{ m x}_{1p}+epsilon_1 \ { m y}_2=eta_0+eta_1{ m x}_{21}+cdotcdotcdot+eta_p{ m x}_{2p}+epsilon_2\ vdots\ { m y}_n=eta_0+eta_1{ m x}_{n1}+cdotcdotcdot+eta_p{ m x}_{np}+epsilon_n end{array} ight. end{equation}$

這個方程組的通俗（不嚴謹）解釋是：我們手上總共有n組樣本，每組樣本假定具有p個與響應變數相關的自變數，和一個常數項，外帶一丟丟誤差。

在高等代數中，多元線性方程組可以寫成矩陣形式，同樣的，多元回歸方程組也可以寫成矩陣形式：

其中， $extbf{y}=left( egin{matrix} m y_1\ m y_2\vdots\{ m y}_nend{matrix} ight), extbf{x}=left( egin{matrix}1& m x_{11}&cdots &{ m x}_{1p} \1& m x_{21}&cdots &x_{2p}\vdots&vdots &ddots&vdots\1&{ m x}_{n1}&cdots &{ m x}_{np}end{matrix} ight), pmb{eta}=left( egin{matrix}eta_0 \eta_1\vdots\eta_pend{matrix} ight),pmb{epsilon}=left( egin{matrix}epsilon_1\epsilon_2\vdots\epsilon_nend{matrix} ight)$

有時，我們用來表示矩陣的第i個行向量 $egin{matrix}(1&{ m x}_{11}&cdots&{ m x}_{1p})end{matrix}$ . 故，線性回歸方程（組）又可表為：

${ m y}_i= extbf x_{i}pmb{eta}+epsilon_i$

1.2 均值、方差、協方差和相關係數

假設我們熟知數理統計中的那一套對隨機變數的均值、方法、協方差和相關係數的定義。

1.2.1 均值向量

設為隨機向量，i.e. $extbf{y}=left( egin{matrix} m y_1\ m y_2\vdots\{ m y}_nend{matrix} ight)$ ，則

$mathbb{E}({ extbf y})=mathbb{E}left( egin{matrix} m y_1\ m y_2\vdots\{ m y}_nend{matrix} ight)=left( egin{matrix}mathbb{E}( m y_1)\mathbb{E}( m y_2)\vdots\mathbb{E}({ m y}_n)end{matrix} ight)=left( egin{matrix}mu_1\mu_2\vdots\mu_nend{matrix} ight)=pmb{mu}$

由向量的加法和期望的性質可知，對隨機向量有

1.2.2 方差、協方差矩陣

假設為 ${ m y}_1,cdots,{ m y}_n$ 的方差， $sigma_{ij}$ 表示 ${ m y}_i,{ m y}_j,i e j$ 的協方差。

則協方差矩陣

$pmb{Sigma}={ m cov}( extbf{y}) =left( egin{matrix}sigma_{11}&sigma_{12}&cdots &sigma_{1n} \sigma_{21}&sigma_{22}&cdots &sigma_{2n}\vdots&vdots &ddots&vdots\sigma_{n1}&sigma_{n2}&cdots &sigma_{nn}end{matrix} ight) \=left( egin{matrix} m cov(y_1,y_1)& m cov(y_1,y_2)&cdots &{ m cov}({ m y}_1,{ m y}_n) \ m cov(y_2,y_1)& m cov(y_2,y_2)&cdots &{ m cov}({ m y}_2,{ m y}_n)\vdots&vdots &ddots&vdots\ m cov(y_n,y_1)& m cov(y_n,y_2)&cdots &{ m cov}({ m y}_n,{ m y}_n)end{matrix} ight) \=left( egin{matrix}mathbb{E}({ m y}_1{ m y}_1)-mu_1mu_1&mathbb{E}({ m y}_1{ m y}_2)-mu_1mu_2&cdots &mathbb{E}({ m y}_1{ m y}_n)-mu_1mu_n \mathbb{E}({ m y}_2{ m y}_1)-mu_2mu_1&mathbb{E}({ m y}_2{ m y}_2)-mu_2mu_2&cdots &mathbb{E}({ m y}_2{ m y}_n)-mu_2mu_n \vdots&vdots &ddots&vdots \mathbb{E}({ m y}_n{ m y}_1)-mu_nmu_1&mathbb{E}({ m y}_n{ m y}_2)-mu_1mu_2&cdots &mathbb{E}({ m y}_n{ m y}_n)-mu_nmu_nend{matrix} ight) =left( egin{matrix}mathbb{E}({ m y}_1{ m y}_1)&mathbb{E}({ m y}_1{ m y}_2)&cdots &mathbb{E}({ m y}_1{ m y}_n) \mathbb{E}({ m y}_2{ m y}_1)&mathbb{E}({ m y}_2{ m y}_2)&cdots &mathbb{E}({ m y}_2{ m y}_n) \vdots&vdots &ddots&vdots \mathbb{E}({ m y}_n{ m y}_1)&mathbb{E}({ m y}_n{ m y}_2)&cdots &mathbb{E}({ m y}_n{ m y}_n)end{matrix} ight)-left( egin{matrix}mu_1mu_1&mu_1mu_2&cdots &mu_1mu_n) \mu_2mu_1&mu_2mu_2&cdots &mu_2mu_n \vdots&vdots &ddots&vdots \mu_nmu_1&mu_1mu_2&cdots &mu_nmu_nend{matrix} ight)=mathbb{E}( extbf{yy}^T)-pmb{mumu}^T \=left( egin{matrix}mathbb{E}(({ m y}_1-mu_1)^2)& mathbb{E}(({ m y}_1-mu_1)({ m y}_2-mu_2))&cdots &mathbb{E}(({ m y}_1-mu_1)({ m y}_n-mu_n)) \mathbb{E}(({ m y}_2-mu_2) ({ m y}_1-mu_1))& mathbb{E}(({ m y}_2-mu_2)^2)&cdots &mathbb{E}(({ m y}_2-mu_2)({ m y}_n-mu_n)) \vdots&vdots &ddots&vdots \mathbb{E}(({ m y}_n-mu_n) ({ m y}_1-mu_1))& mathbb{E}(({ m y}_n-mu_n) ({ m y}_2-mu_2))&cdots &mathbb{E}(({ m y}_n-mu_n)^2) end{matrix} ight)=mathbb{E}left( egin{matrix} ({ m y}_1-mu_1)^2& ({ m y}_1-mu_1)({ m y}_2-mu_2)&cdots &({ m y}_1-mu_1)({ m y}_n-mu_n) \({ m y}_2-mu_2) ({ m y}_1-mu_1)& ({ m y}_2-mu_2)^2&cdots &({ m y}_2-mu_2)({ m y}_n-mu_n) \vdots&vdots &ddots&vdots \({ m y}_n-mu_n)({ m y}_1-mu_1)&({ m y}_n-mu_n)({ m y}_2-mu_2)&cdots &({ m y}_n-mu_n)^2end{matrix} ight)=mathbb{E}left(left(egin{matrix}{ m y}_1-mu_1\{ m y}_2-mu_2\vdots\{ m y}_n-mu_nend{matrix} ight)left(egin{matrix}{ m y}_1-mu_1&{ m y}_2-mu_2&cdots&{ m y}_n-mu_nend{matrix} ight) ight)=mathbb{E}(( extbf{y}-pmb{mu})( extbf{y}-pmb{mu})^T)$

即：

$pmb{Sigma}={ m cov}( extbf{y})=mathbb{E}(( extbf{y}-pmb{mu})( extbf{y}-pmb{mu})^T)=mathbb{E}( extbf{yy}^T)-pmb{mumu}^T$

廣義方差(Generalized Variance)：隨機向量的廣義方差為其協方差陣的行列式。

Standard Distance：也稱為Mahalanobis Distance

$D_s=( extbf{y}-pmb{mu})^Tpmb{Sigma}^{-1}( extbf{y}-pmb{mu})$

當為單位陣時，為歐幾里得距離。

1.2.3 相關係數矩陣

$pmb{P}_ ho=left(egin{matrix}1& ho_{12}&cdots& ho_{1n} \ ho_{21}&1&cdots& ho_{1n} \vdots&vdots&ddots&vdots \ ho_{n1}& ho_{n2}&cdots&1 end{matrix} ight)$

其中， $ho_{ij}=sigma_{ij}/sigma_isigma_j$ 為 ${ m y}_i,{ m y}_j$ 的相關係數。

令 $pmb{D}_sigma=({ m diag}(pmb{Sigma}))^{1/2}={ m diag}(sigma_1,sigma_2,cdots,sigma_n)$ ，有

$pmb{P}_ ho=pmb{D}_sigma^{-1}pmb{Sigma}pmb{D}_sigma^{-1} \pmb{Sigma}=pmb{D}_sigmapmb{P}_ hopmb{D}_sigma$

1.3 分塊隨機向量

分塊矩陣（向量）的結論，放到隨機矩陣（向量）中，也make sense。

A simple example：

Suppose that the random vector is partitioned into two subsets of variables, which we denote by and :

$extbf{v}=left(egin{matrix} extbf{y}\ extbf{x}end{matrix} ight)=left(egin{matrix}{ m y}_1\vdots\{ m y}_n\{ m x}_1\vdots\{ m x}_mend{matrix} ight)$

Thus there are n+m random variables in .

$pmb{mu}=mathbb{E}( extbf{v})=mathbb{E}left(left(egin{matrix} extbf{y}\ extbf{x}end{matrix} ight) ight)=left(egin{matrix}mathbb{E}( extbf{y})\mathbb{E}( extbf{x})end{matrix} ight)=left(egin{matrix}pmb{mu}_{ m y}\pmb{mu}_{ m x}end{matrix} ight) \ pmb{Sigma}={ m cov}( extbf{v})={ m cov}left(left(egin{matrix} extbf{y}\ extbf{x}end{matrix} ight) ight)=left(egin{matrix}pmb{Sigma}_{ m yy}&pmb{Sigma}_{ m yx}\pmb{Sigma}_{ m xy}&pmb{Sigma}_{ m xx}end{matrix} ight)$

由協方差性質可知， $pmb{Sigma}_{ m xy}=pmb{Sigma}_{ m yx}^T$

由分塊矩陣的性質也可知：

$pmb{Sigma}_{ m yx}={ m cov}( extbf{y}, extbf{x})=mathbb{E}(( extbf{y}-pmb{mu}_{ m y})( extbf{x}-pmb{mu}_{ m x})^T)$

1.4 隨機向量的線性函數

我們時常需要考慮一些隨機變數的線性組合構成的新的隨機變數，為了方便，引入其向量表示。

${ m z}=a_1{ m y_1}+a_2{ m y_2}+cdots+a_n{ m y_n}=pmb{a}^T extbf{y}$

當我們擁有一系列（k組）關於隨機變數y的線性組合時，

$egin{equation} left{ egin{array}{lr} { m z}_1=a_{11}{ m y_1}+a_{12}{ m y_2}+cdots+a_{1n}{ m y_n}=pmb{a}_1^T extbf{y} \{ m z}_2=a_{21}{ m y_1}+a_{22}{ m y_2}+cdots+a_{2n}{ m y_n}=pmb{a}_2^T extbf{y} \vdots \{ m z}_k=a_{k1}{ m y_1}+a_{k2}{ m y_2}+cdots+a_{kn}{ m y_n}=pmb{a}_k^T extbf{y} end{array} ight. end{equation}$

其中， $pmb{a}_i^T=(a_{i1},a_{i2},cdots,a_{in}), extbf{y}=({ m y}_1,{ m y}_2,cdots,{ m y}_n)^T$

就能得到一個k維隨機向量

其中， $extbf{z}=left(egin{matrix}{ m z}_1\{ m z}_2\vdots\{ m z}_kend{matrix} ight), extbf{A}=left(egin{matrix}pmb{a}_1^T\pmb{a}_2^T\vdots\pmb{a}_k^Tend{matrix} ight)=left( egin{matrix}a_{11}&a_{12}&cdots &a_{1n} \a_{21}&a_{22}&cdots &a_{2n}\vdots&vdots &ddots&vdots\a_{k1}&a_{k2}&cdots &a_{kn}end{matrix} ight)$

由隨機變數的期望、方差、協方差性質，很容易推廣到隨機向量的同類性質。

$mathbb{E}( extbf{Ay}+pmb{b})= extbf{A}mathbb{E}( extbf{y})+pmb{b} \{ m cov}( extbf{z})={ m cov}( extbf{Ay})= extbf{A}pmb{Sigma} extbf{A}^T \{ m cov}( extbf{z}, extbf{w})={ m cov}( extbf{Ay}, extbf{By})= extbf{A}pmb{Sigma} extbf{B}^T \{ m cov}( extbf{Ay}+pmb{b})= extbf{A}pmb{Sigma} extbf{A}^T \{ m cov}( extbf{Ay}, extbf{Bx})= extbf{A}pmb{Sigma}_{ m yx} extbf{B}^T$

最後一條性質，由分塊矩陣的性質可證。

令 $extbf{v}=left(egin{matrix} extbf{y}\ extbf{x}end{matrix} ight), extbf{C}=left(egin{matrix} extbf{A}& extbf{0}\ extbf{0}& extbf{B}end{matrix} ight)$ ，求即可。

1.5 二次型

這裡我們僅在特徵不為2的域上討論。

按道理我應該展開一下為什麼又只考慮特徵不為2；要是是特徵為2，會發生什麼；如果不是2，而是其他素數，又有什麼結論……諸如此類。但展開有點大了，先略一下。但我有想過，這的確是個蠻好玩的問題……有興趣的讀者歡迎在我整理出一個note之前想想。

hint：可以朝獨立性——隨機向量的加法、乘法——角度考慮一下，看看是不是還能well defined.

有別的思路也請告訴我！我給你打電話~

定義1.6.1 設 $extbf{y}=({ m y}_1,cdots,{ m y}_n)^T$ 為隨機向量， $A=(a_{ij})$ 為域上的n階對稱方陣（），則隨機變數、隨機變數、隨機變數

$Q( extbf{y})= extbf{y}^TA extbf{y}$

稱為隨機向量的二次型，也稱為列向量空間 $F^{(n)}$ 上的二次型。

（並不）容易知道，從幾何直觀意義上，一個n維隨機變數的分布的形狀取決於一個二次型——Mahalanobis Distance。對二次型的一些性質的研究，也可以移植到分布理論中的研究。

$mathbb{E}( extbf{y})=pmb{mu},{ m cov}( extbf{y})=pmb{Sigma}\Rightarrow mathbb{E}( extbf{y}^TA extbf{y})=pmb{mu}^TApmb{mu}+{ m tr}(Apmb{Sigma})$

2、分布理論

有了隨機變數要去gang分布這是必然的。

2.1 獨立性

俗話說，是獨立性讓我們不同於那幫搞分析的。

所以先介紹獨立性。

2.1.1 二次型的獨立性

定理2.1.1.1 設為矩陣。

$B^TSigma A=0Leftrightarrow B^TX{perp!!!perp}X^TAX$

證明：

：

設 ${ m rank}(A)=r,C=Sigma^{1/2}ASigma^{1/2}Rightarrow A=Sigma^{-1/2}CSigma^{-1/2}.$

的所有非零特徵根所組成的對角陣為 .

由於，故 $C^T=(Sigma^{1/2})^TA^T(Sigma^{1/2})^T=Sigma^{1/2}ASigma^{1/2}=C$

因此，存在正交矩陣

$P^TCP=left(egin{matrix}Lambda_r&0\0&0end{matrix} ight)$ .

若，而，則

$B^TSigma^{1/2} C=B^TSigma ASigma^{1/2}=0\=B^TSigma^{1/2}P^TPC$

記 $D=B^TSigma^{1/2}P=left(egin{matrix}D_{11}&D_{12}\D_{21}&D_{22}end{matrix} ight)$ ，則

$left(egin{matrix}D_{11}&D_{12}\D_{21}&D_{22}end{matrix} ight)left(egin{matrix}Lambda_r&pmb0\pmb0&pmb0end{matrix} ight)=B^TSigma^{1/2}PP^TCP=B^TSigma^{1/2}CP=pmb0$

所以， $D_{11}=D_{21}=pmb0$

因此，有 $D=left(egin{matrix}pmb0&D_{12}\pmb{0}&D_{22}end{matrix} ight):=(pmb0,D_2) \Rightarrow B^T=DP^TSigma^{-1/2}=(pmb0,D_2)P^TSigma^{-1/2}$

令 $Y=P^TSigma^{-1/2}X=left(egin{matrix}Y_1\Y_2end{matrix} ight)$ ，其中，為維隨機向量，則 $Ysim N(P^TSigma^{-1/2}mu,I_n),X=PSigma^{1/2}Y$ ，有 $Y_1{perp!!!perp}Y_2$ .

因此， $B^TX=(pmb0,D_2)P^TSigma^{-1/2}X=D_2Y_2 \X^TAX=X^TSigma^{-1/2}CSigma^{-1/2}X=X^TSigma^{-1/2}PP^TCPP^TSigma^{-1/2}X\=Y^TP^TCPY=left(egin{matrix}Y_1&Y_2end{matrix} ight)left(egin{matrix}Lambda_r&0\0&0end{matrix} ight)left(egin{matrix}Y_1\Y_2end{matrix} ight)=Y_1^TLambda_rY_1$

所以， $B^TX{perp!!!perp}X^TAX$

若 $B^TX{perp!!!perp}X^TAX$ ，則 $m cov(B^TX,X^TAX)=pmb 0 \Rightarrow 2B^TSigma Amu=0$ 對任意均成立，則

2.1.2 Cochran定理

設n維隨機向量服從正態分布 .

$X=left(egin{matrix}X_1\X_2\vdots\X_nend{matrix} ight)$ ， $X_1,cdots,X_noverset{ ext{i.i.d.}}sim N(0,sigma^2)$

存在矩陣 $A_1,cdots ,A_k,sum_{i=1}^kA_i=I_n， ext{rank}(A_i)=n_i$ ，設 . 則有：

相互獨立且 $Q_isimchi^2(n_i),i=1,cdots,kLeftrightarrowsum_{i=1}^kn_i=n$

證明：

：不妨設，否則，令，此時， $Y_1,cdots ,Y_noverset{ ext{i.i.d.}}sim N(0,1)$

那麼，，相互獨立， .

由分布的可加性， $sum_{i=1}^kQ_isimchi^2(n)$ ，即： $sum_{i=1}^kn_i=n$

【打TeX好累，先略。漢化版的證明是能隨手找到的。】

2.2 聯合分布、邊緣分布、條件分布

略。

注意三者定義即可。

2.3 （多元）正態分布

正態分布是高斯所有工作中應用最廣泛的，了解一下。

線性模型中，我們從gaussian assumetion談起。

最簡單的當然是：考慮線性模型

令誤差向量 $pmb{epsilon}sim N(0,I_n)$ ，由於正態分布的任意線性組合/線性分量的邊緣分布仍然服從正態分布，因此，觀測值向量也服從正態分布。

下面，我們就（以矩陣/向量的寫法）證明這件事。

定理2.1.1 為隨機向量，並服從 $N_n(pmb{mu},pmb{Sigma})$ ，為常數向量，為任意常數陣， .

則 $z=pmb{a}^T extbf{y}sim N(pmb{a}^Tpmb{mu},pmb{a}^Tpmb{Sigma a}),pmb{z}=pmb{A}^T extbf{y}sim N(pmb{A}^Tpmb{mu},pmb{A}^Tpmb{Sigma A})$

簡證：使用矩母函數即可。

定理2.1.2 若隨機向量 $extbf{x}sim N_n(pmb{mu},pmb{Sigma})$ ，則的分塊子向量也服從正態分布。

證明：不失一般性，令 $extbf{x}=left(egin{matrix} extbf{x}_1\ extbf{x}_2end{matrix} ight),pmb{mu}=left(egin{matrix}pmb{mu}_1\pmb{mu}_2end{matrix} ight),pmb{Sigma}=left(egin{matrix}pmb{Sigma}_{11}&pmb{Sigma}_{12}\pmb{Sigma}_{21}&pmb{Sigma}_{21}end{matrix} ight)$

設 $A=(I_r,pmb{0})$ ，則 $A extbf{x}= extbf{x}_1$ .

由定理2.1.1，則 $extbf{x}_1sim N_r(pmb{mu}_1,pmb{Sigma}_{11})$ .

2.4 抽樣分布

主要有三大種，定理太長，不轉電子版了……掃描版等我有時間再發上來。

2.4.1 分布

標準的卡方分布可以看成正態隨機變數的平方和。

2.4.2 t分布

正態隨機變數減去其樣本均值再除其樣本方差。

2.4.3 F分布

卡方之比。

3、點估計

3.1 最小二乘法

3.2 廣義最小二乘法

3.3 最小二乘的幾何性質

3.4 極大似然估計

3.5 限制極大似然估計

3.6 最小範數二次估計

4、假設檢驗

4.1 線性假設的檢驗

4.1.1 檢驗

4.1.2 t檢驗

4.1.3 F檢驗

4.2 Likelihood Ratio Test

5、區間估計

5.1 置信橢球

5.2 同時置信區間

5.3 預測

6、方差分析

6.1 One-way ANOVA

6.2 Two-way ANOVA

6.3 誤差方差齊性與正態性檢驗

7、協方差分析模型

7.1 參數估計

7.2 假設檢驗

8、Linear Mixed Model

8.1 參數估計

8.2 假設檢驗

9、數據分析

9.1 模型選擇

9.2 模型擬合

9.3 模型診斷

Mathful Review of Linear Model

◆?◆

1、隨機向量與隨機矩陣

2、分布理論

3、點估計

4、假設檢驗

5、區間估計

6、方差分析

7、協方差分析模型

8、Linear Mixed Model

9、數據分析

热门新闻

周热门

Mathful Review of Linear Model

◆?◆

1、隨機向量與隨機矩陣

2、分布理論

3、點估計

4、假設檢驗

5、區間估計

6、方差分析

7、協方差分析模型

8、Linear Mixed Model

9、數據分析

機器學習（周志華）課後習題——第三章——線性模型

回歸分析|筆記整理（B）——主成分回歸（下），偏最小二乘回歸

回歸分析|筆記整理（A）——嶺回歸，主成分回歸（上）

泊松分布與二項分布的關係

廢紙三千 | 證明依概率收斂有幾種方法？

[第一章] 1.3 Casual bayesian networks

邏輯回歸為什麼用Sigmoid？(一)

我想和男友聊天，可他卻總在打遊戲，我很生氣怎麼辦？

INFP 型的人們都在做什麼工作？

為什麼安靜時頭部會有高頻、尖銳的「嚶——」的聲音？

睡覺的時候手會不自覺的放到頭頂上是一種怎樣的心理暗示？該怎樣解決這個問題？

經常做夢哭醒表明了什麼？

有些人為什麼會很容易被嚇到?

聽不見鬧鐘響怎麼辦？

iPhone上用藍牙耳機，藍牙耳機音量調到最小還是太大、有什麼辦法嗎？

热门新闻

周热门