回归分析|笔记整理(7)——多元线性回归(下),违背基本假设的情况
大家好!我又出现了(*^__^*) 嘻嘻。刚结束PDE考试(不可避免的凉凉)我就赶紧过来完成了这一篇文章。
这一节我们会结束多元线性回归的内容,并且会努力结束下一个部分——违背基本假设的情况的相关内容。
提供之前的笔记:
- 回归分析|笔记整理(1)——引入,一元线性回归(上)
- 回归分析|笔记整理(2)——一元线性回归(下)
- 回归分析|笔记整理(3)——多元正态分布理论(上)
- 回归分析|笔记整理(4)——多元正态分布理论(中)
- 回归分析|笔记整理(5)——多元正态分布理论(下)
- 回归分析|笔记整理(6)——多元线性回归(上)
我们开始本节的内容。
目录
- 多元线性回归(下)
- 偏回归平方和
- 部分系数显著性检验
- 违背基本假设的情况
- 异方差性
- 异方差性检验
- 异方差性问题处理方法
- 一元加权最小二乘估计
- 多元加权最小二乘估计
- 自相关性
- 自相关系数法
- DW检验
- 自相关性问题的处理方法
- 迭代法
- 差分法
- 异常值与强影响点
- 关于自变数 异常
- 删除残差
- 关于自变数 异常,强影响点
- 强影响点的判定
- 库克距离
- Box-Cox变换
多元线性回归(下)
偏回归平方和
这一个概念其实是拟合优度里的内容,单独拉出来说的原因是它在理论上还有很多其余的重要的知识内容。
我们在上一节中说过,偏相关系数是一个不错的衡量回归系数显著性的指标。但是有没有发现我们有说过对方程做显著性检验,也有说过对每个系数做显著性检验,却好像没有说过对部分系数做显著性检验。这就是偏回归平方和可以用到的地方。事实上,它和偏相关系数差别也不大。
首先我们给出它的定义。
Definition 1: Sum of squares of partial regression
称为自变数 的偏回归平方和,其中 表示在原本p个变数中剔除 后的剩下p-1个变数的回归出的残差平方和。 类似定义。
现在我们用它的思想来解决这个问题。
部分系数显著性检验
我们设 。那么我们的目的是构造两个平方和的差,这样才有可能分离出部分变数的 等,进而进行假设检验。
因为 ( 为帽子矩阵),而这个 是由自变数的集合决定的。所以我们如果要构造只包含自变数集合 的残差平方和,只需要设 即可。
为了尊重Prof,我们遵守原来的标记,设 (这个命名在《数值线性代数》里用的比较多,因为它们都是投影(projector)矩阵),那么容易得到
回想一下上一节我们怎么进行方程的显著性检验的?对,关键的问题就是要研究统计量矩阵表示中,最中间的那个矩阵。如果我们说明了它是二次型,就可以使用 分布相关的知识。所以我们需要看看 到底是个啥。
首先我们要计算 ,在第四节中,我们计算过,这里我们直接用那里的公式。
其中
因为计算 还需要之前加一个 ,之后加一个 。所以把 按照之前的规则分块,写开乘上 的第一个部分,就是 ,而第二项乘完相当于 (注意 为对称阵),所以加在一起我们容易得到最后的结果
下面我们试试看,能不能证明这是一个对称幂等阵,如果证明出来了,就说明这是一个二次型,就可以说明它服从一个 分布了。
先试著把它平方一下看看
所以我们关键要看 分别是什么。事实上,你只需要注意到 它左右都有一个 ,而这个矩阵无论是左乘 ,还是右乘,都能让矩阵变为0。所以我们事实上就证明了 ,也就自然说明了对称幂等。
现在,我们根据第五节的内容就可以得到
, , 。
将 分块就可以得到上面的结果。
使用和上一节一样的分析思路,代入原假设的条件,看看非中心化参数是不是为0。有没有发现在 的时候,确确实实 服从一个中心 分布,这也一定程度上说明了我们确实通过分离出 的残差平方和实现了构造分布所需要的统计量。还有一个统计量,只需要根据 ,就可以得到 与 独立。所以这样的话,就可以得到下面的统计量
这是针对 的一个检验统计量。有兴趣的同学可以看看,当 是一维的时候,它与我们上一节说的t检验是一致的。
我们在这一节的推导中省略了较多的细节,如果发现推导出现困难,那就应该回去多看看之前的理论和思路了。
违背基本假设的情况
这是一个全新的部分,在这里我们会说明,在回归的三大基本假设不满足的情况下,会有什么可能的解决方案。为了防止大家有所遗忘,我这里再一次写一下所谓的Gauss-Markov条件。
Definition 2: Gauss-Markov
我们主要关注的就是违背G-M条件情况下,我们应该如何处理。
异方差性
数学上说就是 。现实中这样的例子也有很多,比方说收入模型,贫穷如我的人整天就会想怎么才能吃饱,而富有的人就会在想双十一要买多少东西,这消费就不可能是一个量级。在异方差出现的时候,会有很多问题。比方说参数不再是最佳线性无偏估计(但依然无偏),显著性检验也失效了。所以回归的效果也很不理想。所以统计学家要想办法去侦测到它,并且努力去消除它。
异方差性检验
因为正常情况下, ,所以异方差性是可以通过残差看出来的。这就是残差图检验的由来。比方说我的残差长下面这个样子