No safe wall between variable selection and model inference.

才疏学浅,有疏漏之处请斧正.

本文是在读了

Berk, R. A., Brown, L. D., Buja, A., Zhang, K., & Zhao, L. H. (2013). Valid post-selection inference.Annals of Statistics, 41(2), 802-837.

后在讨论班上做的一个报告的一部分.

这一部分的例子主要来自于:

Leeb, H., & Potscher, B. M. (2005). Model Selection and Inference: Facts and Fiction.Econometric Theory, 21(01), 21-59.

在此首先直观的说一下,任意的一个变数选择过程是如何影响到我们后续的统计推断的,为何在高维情况下做统计推断是一件非常复杂的事情

在统计与计量经济学分析中,很多时候我们都会经历一个模型选择的过程:也即,通过数据来决定是否应当将一些变数加入到我们的模型分析中来.

在经典的分析中,我们认为只要我们的模型选择过程(Variable Selection)是一致的(Consistent),也即,当样本足够大的时候,我们的方法可以选出正确的变数,那我们就认为我们的变数选择方法视为有效的.

我们就可以将我们使用手头数据和某些特定变数选择方法(如:AIC,BIC,LASSO,SCAD等方法)选择出来的模型视为一个新的起点,一个正确的模型,在这个基础上再对模型进行推断.就可以得到我们一般而言的正态置信区间.

但事情往往并没有这么简单.我们的手上只有有限的数据,没有任何理论能够保证我们的模型选择方法在有限数据上能够选择到真实的模型.

以下全部内容假设残差服从正态分布,不存在异方差,数据i.i.d

不存在模型选择时

在不存在模型选择时,我们认为存在一个如下的待估计的总体方程:

y=xeta+epsilon

我们使用数据进行OLS估计时,参数 eta=(eta_1,...eta_p) 的估计值 hat{eta} 有经典的三明治方差形式,简化后有:

sqrt{n}(hat{eta}-eta) sim N(0,(X^TX)^{-1}sigma^2)

但是当我们进行变数选择时,直观的:

  • 通过变数选择, 可能X的某些列不存在于最终的结果中了.更无从谈起对其系数进行估计
  • 由于设计矩阵X不一定正交,所以当控制变数变化时, hat{eta}_j的极限分布也不同了.
  • 我们感兴趣的变数可能不一定会被选中.

我们通过如下例子来考虑这个问题:

假设真实的数据生成机制为:

y=alpha x+eta z+epsilon

其中,所有符号都是标量.

我们感兴趣的是x的系数.x的系数始终保留,不经过变数选择.

但是对z的系数 ,我们将按照如下的方式进行变数选择:

if  |frac{ sqrt{n}hat{eta}}{sigma_eta} | >c,z  selected ,

if  |frac{ sqrt{n}hat{eta}}{sigma_eta} | <c,z  deselected

也即按照t统计量是否显著来判断是否选择z.

简化技术细节,假设我们已知 sigma_eta ,这个统计量简化成为z-statistic.

则,我们考察 hat{a} 的分布:

P(hat{a}<k)=P(hat{a}<k|z  selected)	imes P(z  selected))

+P(hat{a}<k|z  deselected)	imes P(z  deselected))

又有: P(z  selected))=P(|frac{ sqrt{n}hat{eta}}{sigma_eta} | >c)

=P(frac{ sqrt{n}(hat{eta}-eta)}{sigma_eta} >c- frac{sqrt{n} (eta)}{sigma_eta})  -P(frac{ sqrt{n}(hat{eta}-eta)}{sigma_eta} <-c- frac{sqrt{n} eta}{sigma_eta})

   = Phi(c- frac{sqrt{n} (eta)}{sigma_eta})-Phi(-c- frac{sqrt{n} (eta)}{sigma_eta})

n 
ightarrow inftyP(z  selected)) 
ightarrow 0  or  1 如果 frac{c}{sqrt{n}} 
ightarrow 0 (这一假设非常正常,AIC,BIC等等都符合这一条件)

在高维情况下n 
ightarrow infty的同时 p 
ightarrow infty ,我们很难得到一个稳健的估计结果.

所以,我们在这一例子中的参数的有限样本分布实际上是两个分布的一个加权.依赖于未知的frac{sqrt{n} (eta)}{sigma_eta} ,极有可能是一个双峰分布.

frac{sqrt{n} (eta)}{sigma_eta}的大小适中时,我们很容易得到一个双峰分布,因此,我们的参数的一个双峰有限样本分布并不能很好地近似我们的单峰的总体分布,因此在变数选择基础上进行的所有传统方法的统计推断都是不可信的.

在近十年,有许多的统计学家与计量经济学家对这一问题进行了研究,尤其是对高维情况下的变数选择后的模型进行推断.有一系列的研究,包括在MIT的chernozhukov,UPenn的Berk等等在这一领域.有一系列的文章


推荐阅读:
相关文章