Post-selection:写在变数选择后(1)

No safe wall between variable selection and model inference.

才疏学浅,有疏漏之处请斧正.

本文是在读了

Berk, R. A., Brown, L. D., Buja, A., Zhang, K., & Zhao, L. H. (2013). Valid post-selection inference.Annals of Statistics, 41(2), 802-837.

后在讨论班上做的一个报告的一部分.

这一部分的例子主要来自于:

Leeb, H., & Potscher, B. M. (2005). Model Selection and Inference: Facts and Fiction.Econometric Theory, 21(01), 21-59.

在此首先直观的说一下,任意的一个变数选择过程是如何影响到我们后续的统计推断的,为何在高维情况下做统计推断是一件非常复杂的事情

在统计与计量经济学分析中,很多时候我们都会经历一个模型选择的过程:也即,通过数据来决定是否应当将一些变数加入到我们的模型分析中来.

在经典的分析中,我们认为只要我们的模型选择过程(Variable Selection)是一致的(Consistent),也即,当样本足够大的时候,我们的方法可以选出正确的变数,那我们就认为我们的变数选择方法视为有效的.

我们就可以将我们使用手头数据和某些特定变数选择方法(如:AIC,BIC,LASSO,SCAD等方法)选择出来的模型视为一个新的起点,一个正确的模型,在这个基础上再对模型进行推断.就可以得到我们一般而言的正态置信区间.

但事情往往并没有这么简单.我们的手上只有有限的数据,没有任何理论能够保证我们的模型选择方法在有限数据上能够选择到真实的模型.

以下全部内容假设残差服从正态分布,不存在异方差,数据i.i.d

不存在模型选择时

在不存在模型选择时,我们认为存在一个如下的待估计的总体方程:

我们使用数据进行OLS估计时,参数的估计值有经典的三明治方差形式,简化后有:

$sqrt{n}(hat{eta}-eta) sim N(0,(X^TX)^{-1}sigma^2)$

但是当我们进行变数选择时,直观的:

通过变数选择, 可能X的某些列不存在于最终的结果中了.更无从谈起对其系数进行估计
由于设计矩阵X不一定正交,所以当控制变数变化时, $hat{eta}_j$ 的极限分布也不同了.
我们感兴趣的变数可能不一定会被选中.

我们通过如下例子来考虑这个问题:

假设真实的数据生成机制为:

其中,所有符号都是标量.

我们感兴趣的是x的系数.x的系数始终保留,不经过变数选择.

但是对z的系数 ,我们将按照如下的方式进行变数选择:

$if |frac{ sqrt{n}hat{eta}}{sigma_eta} | >c,z selected$ ,

$if |frac{ sqrt{n}hat{eta}}{sigma_eta} | <c,z deselected$

也即按照t统计量是否显著来判断是否选择z.

简化技术细节,假设我们已知 ,这个统计量简化成为z-statistic.

则,我们考察的分布:

又有: $P(z selected))=P(|frac{ sqrt{n}hat{eta}}{sigma_eta} | >c)$

$=P(frac{ sqrt{n}(hat{eta}-eta)}{sigma_eta} >c- frac{sqrt{n} (eta)}{sigma_eta}) -P(frac{ sqrt{n}(hat{eta}-eta)}{sigma_eta} <-c- frac{sqrt{n} eta}{sigma_eta})$

$= Phi(c- frac{sqrt{n} (eta)}{sigma_eta})-Phi(-c- frac{sqrt{n} (eta)}{sigma_eta})$

当时如果 $frac{c}{sqrt{n}} ightarrow 0$ (这一假设非常正常,AIC,BIC等等都符合这一条件)

在高维情况下的同时 ,我们很难得到一个稳健的估计结果.

所以,我们在这一例子中的参数的有限样本分布实际上是两个分布的一个加权.依赖于未知的 $frac{sqrt{n} (eta)}{sigma_eta}$ ，极有可能是一个双峰分布.

Post-selection:写在变数选择后(1)

不存在模型选择时

热门新闻

周热门

Post-selection:写在变数选择后(1)

不存在模型选择时

如何自学计量经济学？

作为经济学专业学生，最应该学习的课程前五位是什么？

时间序列分析第三章 平稳自回归移动平均过程

2. 时间序列分析-自回归移动平均过程及脉冲响应函数

中美瑞德西韦试验结果迥异掀热议

瑞德西韦测试疑无效 药厂反驳未有结论

港大学者预计港感染数字较确诊为高

全港学校延长停课两周

下月九日倘未复课 小六呈分将取消

梁卓伟：全港须高度戒备 倘松懈会增出现确诊个案机会

美洲国家组织报告指 选举电脑被大规模操纵

时间序列分析 自协方差/自相关系数/偏自相关系数

偏差与方差， 欠拟合与过拟合

10-概率分布之离散概率和连续概率

联合概率、条件概率和边缘概率

热门新闻

周热门

时间序列分析第三章平稳自回归移动平均过程

瑞德西韦测试疑无效药厂反驳未有结论

下月九日倘未复课小六呈分将取消

梁卓伟：全港须高度戒备　倘松懈会增出现确诊个案机会

美洲国家组织报告指选举电脑被大规模操纵

时间序列分析自协方差/自相关系数/偏自相关系数

偏差与方差，欠拟合与过拟合