為什麼在使用最小二乘法得出參數值後,仍然要進行顯著性t檢驗?
其實這不算科普,只能算掃盲貼。。。但是這個問題還是挺重要的!這個帖子是為了回答
為什麼在使用最小二乘法得出參數值後,仍然要進行顯著性t檢驗?如果不顯著性影響,算出參數值接近零?如何驗證真實參數為零,但是其估計值不會是零
你可以做一個簡單的實驗,從下面的模型裏simulate 100次
然後你在simulate 100次這個x
然後你回歸這個模型
你會得到一個 。
很明顯,真實參數 ,而我可以負責的告訴你,你這個 肯定不是零,再小也不會是零。
事實上 的概率是零。
現在說點實際的,假設你不知道 是不是零,你看到一個很接近零但不是零的 ,你該如何判斷?要科學的判斷!
這個估計值再接近零,你都不能說真實參數就是零,那是武斷的不負責任的。萬一真實的很小但就不是零怎麼辦?你要知道,很小但不是零代表有影響,這和你的的數量級有關係。多小纔算小是另外一個問題。
所以,你必須要要用假設檢驗來判斷,you cannot do better without it!
假設我求得一個較大的參數估計值,並不靠近於零,那麼我如何判斷X是否真的對Y有影響?
還是上面那個例子,我們稍微具體化一下:
假如說,上式是真實模型, 且 ,2這個數值的數量級一般來說我們認為夠大了,我們用這個模型simulate了一堆數據 ,其中, 和 都有具體的物理意義。
我們根據這套數據做回歸會得到一個很接近2的 ,我們不做假設檢驗,就看 得出判斷,x對y有影響。好,先這樣,我們繼續。
在實際處理中,我們可能不使用這堆數據,譬如, 當前的單位是米,我要給 換個單位,我們想換成千米。這類操作很常見,屬於data transformation,或者數據預處理,有的還歸類於data cleaning,其實就是做一個函數變換,把 用另一個變數 替換掉,他們有一一對應的函數關係
等價於
把上式帶入原式有
所以,在做完變換單位的數據處理之後,我們真正要回歸的是
其中
根據上面那一堆數據的變換 我們做回歸,我們會得到一個很接近0.002的 ,這時候我們就根據 得出判斷,x對z沒有影響!
問題就在這裡,其實完全是等價的兩套數據,就因為數量級不同,不經過假設檢驗,我們會得出截然相反的兩種推論。
所以,不做假設檢驗,單單看估計值的數量級作出判斷是不靠譜的!
而如果你做假設檢驗,比如t檢驗,只要數據相同 ,同一個檢驗做出來的顯著性結果是完全一致的。
推薦閱讀: