回歸分析|筆記整理(7)——多元線性回歸(下),違背基本假設的情況
大家好!我又出現了(*^__^*) 嘻嘻。剛結束PDE考試(不可避免的涼涼)我就趕緊過來完成了這一篇文章。
這一節我們會結束多元線性回歸的內容,並且會努力結束下一個部分——違背基本假設的情況的相關內容。
提供之前的筆記:
- 回歸分析|筆記整理(1)——引入,一元線性回歸(上)
- 回歸分析|筆記整理(2)——一元線性回歸(下)
- 回歸分析|筆記整理(3)——多元正態分佈理論(上)
- 回歸分析|筆記整理(4)——多元正態分佈理論(中)
- 回歸分析|筆記整理(5)——多元正態分佈理論(下)
- 回歸分析|筆記整理(6)——多元線性回歸(上)
我們開始本節的內容。
目錄
- 多元線性回歸(下)
- 偏回歸平方和
- 部分係數顯著性檢驗
- 違背基本假設的情況
- 異方差性
- 異方差性檢驗
- 異方差性問題處理方法
- 一元加權最小二乘估計
- 多元加權最小二乘估計
- 自相關性
- 自相關係數法
- DW檢驗
- 自相關性問題的處理方法
- 迭代法
- 差分法
- 異常值與強影響點
- 關於自變數 異常
- 刪除殘差
- 關於自變數 異常,強影響點
- 強影響點的判定
- 庫克距離
- Box-Cox變換
多元線性回歸(下)
偏回歸平方和
這一個概念其實是擬合優度裏的內容,單獨拉出來說的原因是它在理論上還有很多其餘的重要的知識內容。
我們在上一節中說過,偏相關係數是一個不錯的衡量回歸係數顯著性的指標。但是有沒有發現我們有說過對方程做顯著性檢驗,也有說過對每個係數做顯著性檢驗,卻好像沒有說過對部分係數做顯著性檢驗。這就是偏回歸平方和可以用到的地方。事實上,它和偏相關係數差別也不大。
首先我們給出它的定義。
Definition 1: Sum of squares of partial regression
稱為自變數 的偏回歸平方和,其中 表示在原本p個變數中剔除 後的剩下p-1個變數的回歸出的殘差平方和。 類似定義。
現在我們用它的思想來解決這個問題。
部分係數顯著性檢驗
我們設 。那麼我們的目的是構造兩個平方和的差,這樣纔有可能分離出部分變數的 等,進而進行假設檢驗。
因為 ( 為帽子矩陣),而這個 是由自變數的集合決定的。所以我們如果要構造只包含自變數集合 的殘差平方和,只需要設 即可。
為了尊重Prof,我們遵守原來的標記,設 (這個命名在《數值線性代數》裏用的比較多,因為它們都是投影(projector)矩陣),那麼容易得到
回想一下上一節我們怎麼進行方程的顯著性檢驗的?對,關鍵的問題就是要研究統計量矩陣表示中,最中間的那個矩陣。如果我們說明瞭它是二次型,就可以使用 分佈相關的知識。所以我們需要看看 到底是個啥。
首先我們要計算 ,在第四節中,我們計算過,這裡我們直接用那裡的公式。
其中
因為計算 還需要之前加一個 ,之後加一個 。所以把 按照之前的規則分塊,寫開乘上 的第一個部分,就是 ,而第二項乘完相當於 (注意 為對稱陣),所以加在一起我們容易得到最後的結果
下面我們試試看,能不能證明這是一個對稱冪等陣,如果證明出來了,就說明這是一個二次型,就可以說明它服從一個 分佈了。
先試著把它平方一下看看
所以我們關鍵要看 分別是什麼。事實上,你只需要注意到 它左右都有一個 ,而這個矩陣無論是左乘 ,還是右乘,都能讓矩陣變為0。所以我們事實上就證明瞭 ,也就自然說明瞭對稱冪等。
現在,我們根據第五節的內容就可以得到
, , 。
將 分塊就可以得到上面的結果。
使用和上一節一樣的分析思路,代入原假設的條件,看看非中心化參數是不是為0。有沒有發現在 的時候,確確實實 服從一個中心 分佈,這也一定程度上說明瞭我們確實通過分離出 的殘差平方和實現了構造分佈所需要的統計量。還有一個統計量,只需要根據 ,就可以得到 與 獨立。所以這樣的話,就可以得到下面的統計量
這是針對 的一個檢驗統計量。有興趣的同學可以看看,當 是一維的時候,它與我們上一節說的t檢驗是一致的。
我們在這一節的推導中省略了較多的細節,如果發現推導出現困難,那就應該回去多看看之前的理論和思路了。
違背基本假設的情況
這是一個全新的部分,在這裡我們會說明,在回歸的三大基本假設不滿足的情況下,會有什麼可能的解決方案。為了防止大家有所遺忘,我這裡再一次寫一下所謂的Gauss-Markov條件。
Definition 2: Gauss-Markov
我們主要關注的就是違背G-M條件情況下,我們應該如何處理。
異方差性
數學上說就是 。現實中這樣的例子也有很多,比方說收入模型,貧窮如我的人整天就會想怎麼才能喫飽,而富有的人就會在想雙十一要買多少東西,這消費就不可能是一個量級。在異方差出現的時候,會有很多問題。比方說參數不再是最佳線性無偏估計(但依然無偏),顯著性檢驗也失效了。所以回歸的效果也很不理想。所以統計學家要想辦法去偵測到它,並且努力去消除它。
異方差性檢驗
因為正常情況下, ,所以異方差性是可以通過殘差看出來的。這就是殘差圖檢驗的由來。比方說我的殘差長下面這個樣子