市面上講線性模型/回歸的書,大多從motivation到結構,一股濃郁的計量經濟味兒撲面而來——我、不、喜、歡。

我決定自己寫個線性模型的review,希望過年前寫得完。【果然沒寫完】

本文預備知識:(高等)數理統計、高等代數(矩陣論)

◆?◆

上課的時候,我總覺得線性模型是高等代數版的數理統計,實則理解上出現了偏差——與其說它是XX版的XXXX,毋寧說,它之於數理統計,相當於高等代數之於解析幾何。

廣泛些,將統計系的三門基礎課——線性模型、概率論、數理統計——與數學的三大分支對應,應是「線模同代數,概率如分析,數統似幾何」

如果讓我寫本高代的書,我一定會最先從線性方程組到矩陣講起。

同理,如果寫一個線性模型的review,我必然會從回歸方程組到隨機矩陣(向量)講起——從高斯馬爾科夫定理講起,到底什麼玩意兒……

好了,我開始講(zhuangbi)了。


1、隨機向量與隨機矩陣

1.1 引言

我們考慮多元回歸方程組:

egin{equation} left{              egin{array}{lr}             {
m y}_1=eta_0+eta_1{
m x}_{11}+cdotcdotcdot+eta_p{
m x}_{1p}+epsilon_1 \             {
m y}_2=eta_0+eta_1{
m x}_{21}+cdotcdotcdot+eta_p{
m x}_{2p}+epsilon_2\ vdots\             {
m y}_n=eta_0+eta_1{
m x}_{n1}+cdotcdotcdot+eta_p{
m x}_{np}+epsilon_n                end{array} 
ight. end{equation}

這個方程組的通俗(不嚴謹)解釋是:我們手上總共有n組樣本,每組樣本假定具有p個與響應變數相關的自變數,和一個常數項,外帶一丟丟誤差。

在高等代數中,多元線性方程組可以寫成矩陣形式,同樣的,多元回歸方程組也可以寫成矩陣形式:

	extbf{y}=	extbf{x}pmb{eta}+pmb{epsilon}

其中, 	extbf{y}=left( egin{matrix}
m y_1\
m y_2\vdots\{
m y}_nend{matrix}
ight),  	extbf{x}=left( egin{matrix}1&
m x_{11}&cdots &{
m x}_{1p} \1&
m x_{21}&cdots &x_{2p}\vdots&vdots &ddots&vdots\1&{
m x}_{n1}&cdots &{
m x}_{np}end{matrix}
ight), pmb{eta}=left( egin{matrix}eta_0 \eta_1\vdots\eta_pend{matrix}
ight),pmb{epsilon}=left( egin{matrix}epsilon_1\epsilon_2\vdots\epsilon_nend{matrix}
ight)

有時,我們用 	extbf x_i來表示矩陣 	extbf{x} 的第i個行向量 egin{matrix}(1&{
m x}_{11}&cdots&{
m x}_{1p})end{matrix} . 故,線性回歸方程(組)又可表為:

{
m y}_i=	extbf x_{i}pmb{eta}+epsilon_i

1.2 均值、方差、協方差和相關係數

假設我們熟知數理統計中的那一套對隨機變數的均值、方法、協方差和相關係數的定義。

1.2.1 均值向量

	extbf yn	imes1 隨機向量,i.e. 	extbf{y}=left( egin{matrix}
m y_1\
m y_2\vdots\{
m y}_nend{matrix}
ight) ,則

mathbb{E}({	extbf y})=mathbb{E}left( egin{matrix}
m y_1\
m y_2\vdots\{
m y}_nend{matrix}
ight)=left( egin{matrix}mathbb{E}(
m y_1)\mathbb{E}(
m y_2)\vdots\mathbb{E}({
m y}_n)end{matrix}
ight)=left( egin{matrix}mu_1\mu_2\vdots\mu_nend{matrix}
ight)=pmb{mu}

由向量的加法和期望的性質可知,對 n	imes1 隨機向量 	extbf{a},	extbf{b}

mathbb{E}(	extbf{a}+	extbf{b})=mathbb{E}(	extbf{a})+mathbb{E}(	extbf{b})

1.2.2 方差、協方差矩陣

假設 sigma^2_1,cdots,sigma^2_n{
m y}_1,cdots,{
m y}_n 的方差, sigma_{ij} 表示 {
m y}_i,{
m y}_j,i
e j 的協方差。

則協方差矩陣

pmb{Sigma}={
m cov}(	extbf{y}) =left( egin{matrix}sigma_{11}&sigma_{12}&cdots &sigma_{1n} \sigma_{21}&sigma_{22}&cdots &sigma_{2n}\vdots&vdots &ddots&vdots\sigma_{n1}&sigma_{n2}&cdots &sigma_{nn}end{matrix}
ight) \=left( egin{matrix}
m cov(y_1,y_1)&
m cov(y_1,y_2)&cdots &{
m cov}({
m y}_1,{
m y}_n) \
m cov(y_2,y_1)&
m cov(y_2,y_2)&cdots &{
m cov}({
m y}_2,{
m y}_n)\vdots&vdots &ddots&vdots\
m cov(y_n,y_1)&
m cov(y_n,y_2)&cdots &{
m cov}({
m y}_n,{
m y}_n)end{matrix}
ight) \=left( egin{matrix}mathbb{E}({
m y}_1{
m y}_1)-mu_1mu_1&mathbb{E}({
m y}_1{
m y}_2)-mu_1mu_2&cdots &mathbb{E}({
m y}_1{
m y}_n)-mu_1mu_n \mathbb{E}({
m y}_2{
m y}_1)-mu_2mu_1&mathbb{E}({
m y}_2{
m y}_2)-mu_2mu_2&cdots &mathbb{E}({
m y}_2{
m y}_n)-mu_2mu_n \vdots&vdots &ddots&vdots \mathbb{E}({
m y}_n{
m y}_1)-mu_nmu_1&mathbb{E}({
m y}_n{
m y}_2)-mu_1mu_2&cdots &mathbb{E}({
m y}_n{
m y}_n)-mu_nmu_nend{matrix}
ight) =left( egin{matrix}mathbb{E}({
m y}_1{
m y}_1)&mathbb{E}({
m y}_1{
m y}_2)&cdots &mathbb{E}({
m y}_1{
m y}_n) \mathbb{E}({
m y}_2{
m y}_1)&mathbb{E}({
m y}_2{
m y}_2)&cdots &mathbb{E}({
m y}_2{
m y}_n) \vdots&vdots &ddots&vdots \mathbb{E}({
m y}_n{
m y}_1)&mathbb{E}({
m y}_n{
m y}_2)&cdots &mathbb{E}({
m y}_n{
m y}_n)end{matrix}
ight)-left( egin{matrix}mu_1mu_1&mu_1mu_2&cdots &mu_1mu_n) \mu_2mu_1&mu_2mu_2&cdots &mu_2mu_n \vdots&vdots &ddots&vdots \mu_nmu_1&mu_1mu_2&cdots &mu_nmu_nend{matrix}
ight)=mathbb{E}(	extbf{yy}^T)-pmb{mumu}^T  \=left( egin{matrix}mathbb{E}(({
m y}_1-mu_1)^2)& mathbb{E}(({
m y}_1-mu_1)({
m y}_2-mu_2))&cdots &mathbb{E}(({
m y}_1-mu_1)({
m y}_n-mu_n)) \mathbb{E}(({
m y}_2-mu_2) ({
m y}_1-mu_1))& mathbb{E}(({
m y}_2-mu_2)^2)&cdots &mathbb{E}(({
m y}_2-mu_2)({
m y}_n-mu_n)) \vdots&vdots &ddots&vdots \mathbb{E}(({
m y}_n-mu_n) ({
m y}_1-mu_1))& mathbb{E}(({
m y}_n-mu_n) ({
m y}_2-mu_2))&cdots &mathbb{E}(({
m y}_n-mu_n)^2) end{matrix}
ight)=mathbb{E}left( egin{matrix} ({
m y}_1-mu_1)^2& ({
m y}_1-mu_1)({
m y}_2-mu_2)&cdots &({
m y}_1-mu_1)({
m y}_n-mu_n) \({
m y}_2-mu_2) ({
m y}_1-mu_1)& ({
m y}_2-mu_2)^2&cdots &({
m y}_2-mu_2)({
m y}_n-mu_n) \vdots&vdots &ddots&vdots \({
m y}_n-mu_n)({
m y}_1-mu_1)&({
m y}_n-mu_n)({
m y}_2-mu_2)&cdots &({
m y}_n-mu_n)^2end{matrix}
ight)=mathbb{E}left(left(egin{matrix}{
m y}_1-mu_1\{
m y}_2-mu_2\vdots\{
m y}_n-mu_nend{matrix}
ight)left(egin{matrix}{
m y}_1-mu_1&{
m y}_2-mu_2&cdots&{
m y}_n-mu_nend{matrix}
ight)
ight)=mathbb{E}((	extbf{y}-pmb{mu})(	extbf{y}-pmb{mu})^T)

即:

pmb{Sigma}={
m cov}(	extbf{y})=mathbb{E}((	extbf{y}-pmb{mu})(	extbf{y}-pmb{mu})^T)=mathbb{E}(	extbf{yy}^T)-pmb{mumu}^T

廣義方差(Generalized Variance):隨機向量 	extbf{y} 的廣義方差為其協方差陣的行列式。

GVar(	extbf{y})=det(pmb{Sigma})=left| pmb{Sigma} 
ight|

Standard Distance:也稱為Mahalanobis Distance

D_s=(	extbf{y}-pmb{mu})^Tpmb{Sigma}^{-1}(	extbf{y}-pmb{mu})

pmb{Sigma} 為單位陣時,為歐幾里得距離。

1.2.3 相關係數矩陣

pmb{P}_
ho=left(egin{matrix}1&
ho_{12}&cdots&
ho_{1n} \
ho_{21}&1&cdots&
ho_{1n} \vdots&vdots&ddots&vdots \
ho_{n1}&
ho_{n2}&cdots&1 end{matrix}
ight)

其中, 
ho_{ij}=sigma_{ij}/sigma_isigma_j{
m y}_i,{
m y}_j 的相關係數。

pmb{D}_sigma=({
m diag}(pmb{Sigma}))^{1/2}={
m diag}(sigma_1,sigma_2,cdots,sigma_n) ,有

pmb{P}_
ho=pmb{D}_sigma^{-1}pmb{Sigma}pmb{D}_sigma^{-1} \pmb{Sigma}=pmb{D}_sigmapmb{P}_
hopmb{D}_sigma

1.3 分塊隨機向量

分塊矩陣(向量)的結論,放到隨機矩陣(向量)中,也make sense。

A simple example:

Suppose that the random vector 	extbf{v} is partitioned into two subsets of variables, which we denote by 	extbf{y} and 	extbf{x} :

	extbf{v}=left(egin{matrix}	extbf{y}\	extbf{x}end{matrix}
ight)=left(egin{matrix}{
m y}_1\vdots\{
m y}_n\{
m x}_1\vdots\{
m x}_mend{matrix}
ight)

Thus there are n+m random variables in 	extbf{v} .

pmb{mu}=mathbb{E}(	extbf{v})=mathbb{E}left(left(egin{matrix}	extbf{y}\	extbf{x}end{matrix}
ight)
ight)=left(egin{matrix}mathbb{E}(	extbf{y})\mathbb{E}(	extbf{x})end{matrix}
ight)=left(egin{matrix}pmb{mu}_{
m y}\pmb{mu}_{
m x}end{matrix}
ight) \ pmb{Sigma}={
m cov}(	extbf{v})={
m cov}left(left(egin{matrix}	extbf{y}\	extbf{x}end{matrix}
ight)
ight)=left(egin{matrix}pmb{Sigma}_{
m yy}&pmb{Sigma}_{
m yx}\pmb{Sigma}_{
m xy}&pmb{Sigma}_{
m xx}end{matrix}
ight)

由協方差性質可知, pmb{Sigma}_{
m xy}=pmb{Sigma}_{
m yx}^T

由分塊矩陣的性質也可知:

pmb{Sigma}_{
m yx}={
m cov}(	extbf{y},	extbf{x})=mathbb{E}((	extbf{y}-pmb{mu}_{
m y})(	extbf{x}-pmb{mu}_{
m x})^T)

1.4 隨機向量的線性函數

我們時常需要考慮一些隨機變數的線性組合構成的新的隨機變數,為了方便,引入其向量表示。

{
m z}=a_1{
m y_1}+a_2{
m y_2}+cdots+a_n{
m y_n}=pmb{a}^T	extbf{y}

當我們擁有一系列(k組)關於隨機變數y的線性組合時,

egin{equation} left{ egin{array}{lr} {
m z}_1=a_{11}{
m y_1}+a_{12}{
m y_2}+cdots+a_{1n}{
m y_n}=pmb{a}_1^T	extbf{y} \{
m z}_2=a_{21}{
m y_1}+a_{22}{
m y_2}+cdots+a_{2n}{
m y_n}=pmb{a}_2^T	extbf{y} \vdots \{
m z}_k=a_{k1}{
m y_1}+a_{k2}{
m y_2}+cdots+a_{kn}{
m y_n}=pmb{a}_k^T	extbf{y} end{array} 
ight. end{equation}

其中, pmb{a}_i^T=(a_{i1},a_{i2},cdots,a_{in}),	extbf{y}=({
m y}_1,{
m y}_2,cdots,{
m y}_n)^T

就能得到一個k維隨機向量 	extbf{z}=	extbf{Ay}

其中, 	extbf{z}=left(egin{matrix}{
m z}_1\{
m z}_2\vdots\{
m z}_kend{matrix}
ight),	extbf{A}=left(egin{matrix}pmb{a}_1^T\pmb{a}_2^T\vdots\pmb{a}_k^Tend{matrix}
ight)=left( egin{matrix}a_{11}&a_{12}&cdots &a_{1n} \a_{21}&a_{22}&cdots &a_{2n}\vdots&vdots &ddots&vdots\a_{k1}&a_{k2}&cdots &a_{kn}end{matrix}
ight)

由隨機變數的期望、方差、協方差性質,很容易推廣到隨機向量的同類性質。

mathbb{E}(	extbf{Ay}+pmb{b})=	extbf{A}mathbb{E}(	extbf{y})+pmb{b} \{
m cov}(	extbf{z})={
m cov}(	extbf{Ay})=	extbf{A}pmb{Sigma}	extbf{A}^T \{
m cov}(	extbf{z},	extbf{w})={
m cov}(	extbf{Ay},	extbf{By})=	extbf{A}pmb{Sigma}	extbf{B}^T \{
m cov}(	extbf{Ay}+pmb{b})=	extbf{A}pmb{Sigma}	extbf{A}^T \{
m cov}(	extbf{Ay},	extbf{Bx})=	extbf{A}pmb{Sigma}_{
m yx}	extbf{B}^T

最後一條性質,由分塊矩陣的性質可證。

	extbf{v}=left(egin{matrix}	extbf{y}\	extbf{x}end{matrix}
ight),	extbf{C}=left(egin{matrix}	extbf{A}&	extbf{0}\	extbf{0}&	extbf{B}end{matrix}
ight) ,求 {
m cov}(	extbf{Cv}) 即可。

1.5 二次型

這裡我們僅在特徵不為2的域上討論。

按道理我應該展開一下為什麼又只考慮特徵不為2;要是是特徵為2,會發生什麼;如果不是2,而是其他素數,又有什麼結論……諸如此類。但展開有點大了,先略一下。但我有想過,這的確是個蠻好玩的問題……有興趣的讀者歡迎在我整理出一個note之前想想。

hint:可以朝獨立性——隨機向量的加法、乘法——角度考慮一下,看看是不是還能well defined.

有別的思路也請告訴我!我給你打電話~

定義1.6.1	extbf{y}=({
m y}_1,cdots,{
m y}_n)^Tn	imes1隨機向量,A=(a_{ij}) 為域 mathcal{F} 上的n階對稱方陣A^T=A ),則隨機變數、隨機變數、隨機變數

Q(	extbf{y})=	extbf{y}^TA	extbf{y}

稱為隨機向量 	extbf{y} 的二次型,也稱為列向量空間 F^{(n)} 上的二次型。

(並不)容易知道,從幾何直觀意義上,一個n維隨機變數的分布的形狀取決於一個二次型——Mahalanobis Distance。對二次型的一些性質的研究,也可以移植到分布理論中的研究。

mathbb{E}(	extbf{y})=pmb{mu},{
m cov}(	extbf{y})=pmb{Sigma}\Rightarrow mathbb{E}(	extbf{y}^TA	extbf{y})=pmb{mu}^TApmb{mu}+{
m tr}(Apmb{Sigma})

2、分布理論

有了隨機變數要去gang分布這是必然的。

2.1 獨立性

俗話說,是獨立性讓我們不同於那幫搞分析的。

所以先介紹獨立性。

2.1.1 二次型的獨立性

定理2.1.1.1 Xsim N_n(mu,Sigma),Sigma>0,A=A^T,Bn	imes m 矩陣。

B^TSigma A=0Leftrightarrow B^TX{perp!!!perp}X^TAX

證明:

Rightarrow

{
m rank}(A)=r,C=Sigma^{1/2}ASigma^{1/2}Rightarrow A=Sigma^{-1/2}CSigma^{-1/2}.

C 的所有非零特徵根所組成的對角陣為 Lambda_r .

由於 A=A^T,Sigma^T=Sigma ,故 C^T=(Sigma^{1/2})^TA^T(Sigma^{1/2})^T=Sigma^{1/2}ASigma^{1/2}=C

因此,存在正交矩陣 P,s.t.

P^TCP=left(egin{matrix}Lambda_r&0\0&0end{matrix}
ight) .

B^TSigma A=0 ,而 P^TP=I_n ,則

B^TSigma^{1/2} C=B^TSigma ASigma^{1/2}=0\=B^TSigma^{1/2}P^TPC

D=B^TSigma^{1/2}P=left(egin{matrix}D_{11}&D_{12}\D_{21}&D_{22}end{matrix}
ight) ,則

left(egin{matrix}D_{11}&D_{12}\D_{21}&D_{22}end{matrix}
ight)left(egin{matrix}Lambda_r&pmb0\pmb0&pmb0end{matrix}
ight)=B^TSigma^{1/2}PP^TCP=B^TSigma^{1/2}CP=pmb0

所以, D_{11}=D_{21}=pmb0

因此,有 D=left(egin{matrix}pmb0&D_{12}\pmb{0}&D_{22}end{matrix}
ight):=(pmb0,D_2) \Rightarrow B^T=DP^TSigma^{-1/2}=(pmb0,D_2)P^TSigma^{-1/2}

Y=P^TSigma^{-1/2}X=left(egin{matrix}Y_1\Y_2end{matrix}
ight) ,其中, Y_1r 維隨機向量, 則Ysim N(P^TSigma^{-1/2}mu,I_n),X=PSigma^{1/2}Y ,有 Y_1{perp!!!perp}Y_2 .

因此, B^TX=(pmb0,D_2)P^TSigma^{-1/2}X=D_2Y_2 \X^TAX=X^TSigma^{-1/2}CSigma^{-1/2}X=X^TSigma^{-1/2}PP^TCPP^TSigma^{-1/2}X\=Y^TP^TCPY=left(egin{matrix}Y_1&Y_2end{matrix}
ight)left(egin{matrix}Lambda_r&0\0&0end{matrix}
ight)left(egin{matrix}Y_1\Y_2end{matrix}
ight)=Y_1^TLambda_rY_1

所以,B^TX{perp!!!perp}X^TAX

Leftarrow :

B^TX{perp!!!perp}X^TAX ,則 
m cov(B^TX,X^TAX)=pmb 0 \Rightarrow 2B^TSigma Amu=0 對任意 mu 均成立,則 B^TSigma A=pmb 0

2.1.2 Cochran定理

設n維隨機向量 X 服從正態分布 N_n(0,sigma^2I_n) .

X=left(egin{matrix}X_1\X_2\vdots\X_nend{matrix}
ight)X_1,cdots,X_noverset{	ext{i.i.d.}}sim N(0,sigma^2)

存在矩陣 A_1,cdots ,A_k,sum_{i=1}^kA_i=I_n,	ext{rank}(A_i)=n_i ,設 Q_i=X^TA_iX, i=1,cdots,k . 則有:

Q_1,cdots,Q_k 相互獨立且 Q_isimchi^2(n_i),i=1,cdots,kLeftrightarrowsum_{i=1}^kn_i=n

證明:

Rightarrow:不妨設 sigma^2=1 ,否則,令 Y_i=X_i/sigma ,此時, Y_1,cdots ,Y_noverset{	ext{i.i.d.}}sim N(0,1)

那麼, Q_i=X^TA_iXsimchi^2(n_i)Q_1,cdots,Q_k 相互獨立, i=1,cdots,k .

chi^2 分布的可加性, sum_{i=1}^kQ_isimchi^2(n) ,即: sum_{i=1}^kn_i=n

Leftarrow :

【打TeX好累,先略。漢化版的證明是能隨手找到的。】

2.2 聯合分布、邊緣分布、條件分布

略。

注意三者定義即可。

2.3 (多元)正態分布

正態分布是高斯所有工作中應用最廣泛的,了解一下。

線性模型中,我們從gaussian assumetion談起。

最簡單的當然是:考慮線性模型 	extbf{y}=	extbf{x}pmb{eta}+pmb{epsilon}

令誤差向量 pmb{epsilon}sim N(0,I_n) ,由於正態分布的任意線性組合/線性分量的邊緣分布仍然服從正態分布,因此,觀測值向量 	extbf{y} 也服從正態分布。

下面,我們就(以矩陣/向量的寫法)證明這件事。

定理2.1.1 	extbf{x}n	imes1 隨機向量,並服從N_n(pmb{mu},pmb{Sigma})pmb{a}n	imes1 常數向量, A 為任意 k	imes n 常數陣, kle n .

z=pmb{a}^T	extbf{y}sim N(pmb{a}^Tpmb{mu},pmb{a}^Tpmb{Sigma a}),pmb{z}=pmb{A}^T	extbf{y}sim N(pmb{A}^Tpmb{mu},pmb{A}^Tpmb{Sigma A})

簡證:使用矩母函數即可。

定理2.1.2 若隨機向量	extbf{x}sim N_n(pmb{mu},pmb{Sigma}),則 	extbf{x} 的分塊子向量也服從正態分布。

證明:不失一般性,令	extbf{x}=left(egin{matrix}	extbf{x}_1\	extbf{x}_2end{matrix}
ight),pmb{mu}=left(egin{matrix}pmb{mu}_1\pmb{mu}_2end{matrix}
ight),pmb{Sigma}=left(egin{matrix}pmb{Sigma}_{11}&pmb{Sigma}_{12}\pmb{Sigma}_{21}&pmb{Sigma}_{21}end{matrix}
ight)

A=(I_r,pmb{0}) ,則 A	extbf{x}=	extbf{x}_1 .

由定理2.1.1, 則 	extbf{x}_1sim N_r(pmb{mu}_1,pmb{Sigma}_{11}) .

2.4 抽樣分布

主要有三大種,定理太長,不轉電子版了……掃描版等我有時間再發上來。

2.4.1 chi^2 分布

標準的卡方分布可以看成正態隨機變數的平方和。

2.4.2 t分布

正態隨機變數減去其樣本均值再除其樣本方差。

2.4.3 F分布

卡方之比。

3、點估計

3.1 最小二乘法

3.2 廣義最小二乘法

3.3 最小二乘的幾何性質

3.4 極大似然估計

3.5 限制極大似然估計

3.6 最小範數二次估計

4、假設檢驗

4.1 線性假設的檢驗

4.1.1 chi^2 檢驗

4.1.2 t檢驗

4.1.3 F檢驗

4.2 Likelihood Ratio Test

5、區間估計

5.1 置信橢球

5.2 同時置信區間

5.3 預測

6、方差分析

6.1 One-way ANOVA

6.2 Two-way ANOVA

6.3 誤差方差齊性與正態性檢驗

7、協方差分析模型

7.1 參數估計

7.2 假設檢驗

8、Linear Mixed Model

8.1 參數估計

8.2 假設檢驗

9、數據分析

9.1 模型選擇

9.2 模型擬合

9.3 模型診斷


推薦閱讀:
相关文章