回归分析|笔记整理（7）——多元线性回归（下），违背基本假设的情况

大家好！我又出现了(*^__^*) 嘻嘻。刚结束PDE考试（不可避免的凉凉）我就赶紧过来完成了这一篇文章。

这一节我们会结束多元线性回归的内容，并且会努力结束下一个部分——违背基本假设的情况的相关内容。

提供之前的笔记：

回归分析|笔记整理（1）——引入，一元线性回归（上）
回归分析|笔记整理（2）——一元线性回归（下）
回归分析|笔记整理（3）——多元正态分布理论（上）
回归分析|笔记整理（4）——多元正态分布理论（中）
回归分析|笔记整理（5）——多元正态分布理论（下）
回归分析|笔记整理（6）——多元线性回归（上）

我们开始本节的内容。

多元线性回归（下）

偏回归平方和

这一个概念其实是拟合优度里的内容，单独拉出来说的原因是它在理论上还有很多其余的重要的知识内容。

我们在上一节中说过，偏相关系数是一个不错的衡量回归系数显著性的指标。但是有没有发现我们有说过对方程做显著性检验，也有说过对每个系数做显著性检验，却好像没有说过对部分系数做显著性检验。这就是偏回归平方和可以用到的地方。事实上，它和偏相关系数差别也不大。

首先我们给出它的定义。

Definition 1: Sum of squares of partial regression
$Delta SSR_{(j)}=SSR-SSR_{(j)}=SSE_{(j)}-SSE$ 称为自变数的偏回归平方和，其中 $SSE_{(j)}$ 表示在原本p个变数中剔除后的剩下p-1个变数的回归出的残差平方和。 $SSR_{(j)}$ 类似定义。

现在我们用它的思想来解决这个问题。

部分系数显著性检验

我们设 $y=Xeta+epsilon=egin{bmatrix}X_1 & X_2end{bmatrix}egin{bmatrix}eta_1 \ eta_2end{bmatrix}+epsilon$ 。那么我们的目的是构造两个平方和的差，这样才有可能分离出部分变数的等，进而进行假设检验。

因为（为帽子矩阵），而这个是由自变数的集合决定的。所以我们如果要构造只包含自变数集合的残差平方和，只需要设 $H=X_1(X_1^TX_1)^{-1}X_1^T$ 即可。

为了尊重Prof，我们遵守原来的标记，设 $P_X=X(X^TX)^{-1}X^T,P_{X_1}=X_1(X_1^TX_1)^{-1}X_1^T$ （这个命名在《数值线性代数》里用的比较多，因为它们都是投影(projector)矩阵），那么容易得到

$SSE_1-SSE=Y^T(P_X-P_{X_1})Y$

回想一下上一节我们怎么进行方程的显著性检验的？对，关键的问题就是要研究统计量矩阵表示中，最中间的那个矩阵。如果我们说明了它是二次型，就可以使用分布相关的知识。所以我们需要看看 $P_X-P_{X_1}$ 到底是个啥。

首先我们要计算 $(X^TX)^{-1}$ ，在第四节中，我们计算过，这里我们直接用那里的公式。

$(X^TX)^{-1}=[egin{bmatrix}X_1^T \ X_2^Tend{bmatrix}egin{bmatrix}X_1 & X_2end{bmatrix}]^{-1}=egin{bmatrix} X_1^TX_1 & X_1^TX_2 \ X_2^TX_1 & X_2^TX_2end{bmatrix}^{-1}$

$=egin{bmatrix}(X_1^TX_1)^{-1} & 0 \ 0 & 0end{bmatrix}+egin{bmatrix}-(X_1^TX_1)X_1^TX_2 \ Iend{bmatrix}Sigma_{22 cdot 1}^{-1} egin{bmatrix}-X_2^TX_1(X_1^TX_1)^{-1} & Iend{bmatrix}$

其中 $Sigma_{22.1} = X_2^T(I-P_{X_1})X_2$

因为计算还需要之前加一个，之后加一个。所以把按照之前的规则分块，写开乘上 $(X^TX)^{-1}$ 的第一个部分，就是 $P_{X_1}$ ，而第二项乘完相当于 $(I-P_{X_1})X_2Sigma_{22cdot1}^{-1}X_2^T(I-P_{X_1})$ （注意 $P_{X_1}$ 为对称阵），所以加在一起我们容易得到最后的结果

$P_X-P_{X_1}=(I-P_{X_1})X_2[X_2^T(I-P_{X_1})X_2]^{-1}X_2^T(I-P_{X_1})$

下面我们试试看，能不能证明这是一个对称幂等阵，如果证明出来了，就说明这是一个二次型，就可以说明它服从一个分布了。

先试著把它平方一下看看

$(P_X-P_{X_1})(P_X-P_{X_1})=P_X-P_XP_{X_1}-P_{X_1}P_X+P_{X_1}$

所以我们关键要看 $P_XP_{X_1},P_{X_1}P_X$ 分别是什么。事实上，你只需要注意到 $P_X-P_{X_1}$ 它左右都有一个 $I-P_{X_1}$ ，而这个矩阵无论是左乘 $P_{X_1}$ ，还是右乘，都能让矩阵变为0。所以我们事实上就证明了 $P_XP_{X_1}=P_{X_1}P_X=P_{X_1}$ ，也就自然说明了对称幂等。

现在，我们根据第五节的内容就可以得到

$frac{SSE_1-SSE}{sigma^2} sim chi^2(r,lambda)$ ， $r=tr(P_X-P_{X_1})=r(X)-r(X_1)$ ， $lambda = frac1{sigma^2}eta^TX^T(P_X-P_{X_1})Xeta= frac1{sigma^2}eta_2^TX_2^T(I-P_{X_1})X_2eta_2$ 。

将分块就可以得到上面的结果。

使用和上一节一样的分析思路，代入原假设的条件，看看非中心化参数是不是为0。有没有发现在的时候，确确实实服从一个中心分布，这也一定程度上说明了我们确实通过分离出的残差平方和实现了构造分布所需要的统计量。还有一个统计量，只需要根据 $(I-P_X)(P_X-P_{X_1})=0$ ，就可以得到与独立。所以这样的话，就可以得到下面的统计量

$F=frac{(SSE_1-SSE)/(r(X)-r(X_1))}{SSE/(n-r(X))} sim F(r(X_2),n-r(X))$

这是针对的一个检验统计量。有兴趣的同学可以看看，当是一维的时候，它与我们上一节说的t检验是一致的。

我们在这一节的推导中省略了较多的细节，如果发现推导出现困难，那就应该回去多看看之前的理论和思路了。

违背基本假设的情况

这是一个全新的部分，在这里我们会说明，在回归的三大基本假设不满足的情况下，会有什么可能的解决方案。为了防止大家有所遗忘，我这里再一次写一下所谓的Gauss-Markov条件。

Definition 2: Gauss-Markov
$egin{cases}E(epsilon_i)=0 \ cov(epsilon_i,epsilon_j) = egin{cases}sigma^2 & i=j \ 0 & i e jend{cases}end{cases}$

我们主要关注的就是违背G-M条件情况下，我们应该如何处理。

异方差性

数学上说就是。现实中这样的例子也有很多，比方说收入模型，贫穷如我的人整天就会想怎么才能吃饱，而富有的人就会在想双十一要买多少东西，这消费就不可能是一个量级。在异方差出现的时候，会有很多问题。比方说参数不再是最佳线性无偏估计（但依然无偏），显著性检验也失效了。所以回归的效果也很不理想。所以统计学家要想办法去侦测到它，并且努力去消除它。