Post-selection:寫在變數選擇後(1)

No safe wall between variable selection and model inference.

才疏學淺,有疏漏之處請斧正.

本文是在讀了

Berk, R. A., Brown, L. D., Buja, A., Zhang, K., & Zhao, L. H. (2013). Valid post-selection inference.Annals of Statistics, 41(2), 802-837.

後在討論班上做的一個報告的一部分.

這一部分的例子主要來自於:

Leeb, H., & Potscher, B. M. (2005). Model Selection and Inference: Facts and Fiction.Econometric Theory, 21(01), 21-59.

在此首先直觀的說一下,任意的一個變數選擇過程是如何影響到我們後續的統計推斷的,為何在高維情況下做統計推斷是一件非常複雜的事情

在統計與計量經濟學分析中,很多時候我們都會經歷一個模型選擇的過程:也即,通過數據來決定是否應當將一些變數加入到我們的模型分析中來.

在經典的分析中,我們認為只要我們的模型選擇過程(Variable Selection)是一致的(Consistent),也即,當樣本足夠大的時候,我們的方法可以選出正確的變數,那我們就認為我們的變數選擇方法視為有效的.

我們就可以將我們使用手頭數據和某些特定變數選擇方法(如:AIC,BIC,LASSO,SCAD等方法)選擇出來的模型視為一個新的起點,一個正確的模型,在這個基礎上再對模型進行推斷.就可以得到我們一般而言的正態置信區間.

但事情往往並沒有這麼簡單.我們的手上只有有限的數據,沒有任何理論能夠保證我們的模型選擇方法在有限數據上能夠選擇到真實的模型.

以下全部內容假設殘差服從正態分布,不存在異方差,數據i.i.d

不存在模型選擇時

在不存在模型選擇時,我們認為存在一個如下的待估計的總體方程:

我們使用數據進行OLS估計時,參數的估計值有經典的三明治方差形式,簡化後有:

但是當我們進行變數選擇時,直觀的:

我們通過如下例子來考慮這個問題:

假設真實的數據生成機製為:

其中,所有符號都是標量.

我們感興趣的是x的係數.x的係數始終保留,不經過變數選擇.

但是對z的係數 ,我們將按照如下的方式進行變數選擇:

也即按照t統計量是否顯著來判斷是否選擇z.

簡化技術細節,假設我們已知 ,這個統計量簡化成為z-statistic.

則,我們考察的分布:

又有:

當時如果 (這一假設非常正常,AIC,BIC等等都符合這一條件)

在高維情況下的同時 ,我們很難得到一個穩健的估計結果.

所以,我們在這一例子中的參數的有限樣本分布實際上是兩個分布的一個加權.依賴於未知的，極有可能是一個雙峰分布.

當的大小適中時,我們很容易得到一個雙峰分布,因此,我們的參數的一個雙峰有限樣本分布並不能很好地近似我們的單峰的總體分布,因此在變數選擇基礎上進行的所有傳統方法的統計推斷都是不可信的.

在近十年,有許多的統計學家與計量經濟學家對這一問題進行了研究,尤其是對高維情況下的變數選擇後的模型進行推斷.有一系列的研究,包括在MIT的chernozhukov,UPenn的Berk等等在這一領域.有一系列的文章