内生性问题解决方案汇总与案例示解

本文最初由我作于2012年12月份，修改于2017年11月份，但关键取材均来自于「人大经济论坛」的相关讨论版块，谨以此文向「人大经济论坛」的诸位前辈致谢。

一、内生性问题的缘起

让我们花点时间，探讨一下内生性的缘起。有「内生性」，那么，必然就有所谓「外生性」，我们需要先看看什么是「外生性」。

友情提醒一下，随后的内容很不友好，但为了文章的严谨，我不得不牺牲一些可读性。看不懂公式没关系，读者只要读懂我的说明就行了。

首先从一个经典的多元回归模型开始：

下面给出4个基础假定。

假定1：线性关系假定，被解释变数与解释变数存在线性随机函数关系。

假定2：严格外生假定。

假定3：球形扰动假定。

假定4：无完全共线假定，解释变数之间无完全共线性。

满足上述假定，则对β的普通最小二乘估计（OLS）为最优线性无偏估计量，也就是著名的BLUE估计量。

好的，「外生性」出现了，她存在于假定2，假定2 的文字表述是「当所有时期的解释变数X给定时，每一期的随机干扰项均值都为 0」，有经验的研究者会讲X和ε同期外生和跨期外生同时存在，则为严格外生。我们可以给出这个假定的条件均值形式：

严格外生性通常是很难满足的，于是，学者们退而求其次，只要求同期外生，这便是弱外生性假定。我们也可以给出这个假定的条件均值形式：

满足假定1、假定3和假定4，以及弱外生性假定（被放宽的假定2），我们能够证明OLS估计量一致、符合渐进正态分布，T检验，F检验以及Wald检验等常用检验都近似有效。

不幸的是，即便是弱外生性假定，即扰动项与解释变数同期不相关，在现实中也常常不能被满足。也就是：

外生性假定不满足，这便产生了内生性问题。严格来说，若扰动项与解释变数不满足弱外生性假定，我们称模型存在内生性问题，与扰动项相关的解释变数被称为内生变数。

最后提一点，经验上来讲，内生性问题有四种常见形式：

1.遗漏解释变数。

2.X与Y互为因果，有时也称反向因果关系。

3.自选择问题。

4.测量误差问题。

上面每一种形式的内生性问题都有很多例证和应对方案，但为了本文主题的集中，我不在这里展开。

二、内生性的解决方案

事实上，仅仅为了解决内生性问题，并不需要我们对内生性问题的缘起有很深入的理解。对于应用型的实证研究而言，我们只需要掌握解决内生性问题的具体方案即可。内生性问题的解决方案一共四种，理论上来讲，这四种方案应对内生性问题都很有效。但于我个人而言，我对四种方法的评价是有高低的，由高到低分别介绍如下。

1.自然实验法

所谓自然实验，就是发生了某些外部突发事件，使得研究对象仿佛被随机分成了实验组或控制组。

这是我最喜欢的方法，只是自然实验需要寻找一个事件，并且这个事件只影响解释变数而不影响被解释变数。遇著这种事件是一种缘分，还要能识别出来，这对学者的眼光也是一种挑战。

有很多文章声称使用了自然实验，但严格来讲，并没有做到对研究对象进行了随机分组。虽然如此，我对此类文章仍然很是喜欢。

知乎-在社会科学研究中，研究者巧妙地运用过哪些「自然实验」？

https://www.zhihu.com/question/30470194

2.双重差分法

Difference-in-Difference （DID）一般称为双重差分法，或倍差法。倘若出现了一次外部冲击，这次冲击影响了一部分样本，对另一部分样本则无影响，而我们想看一下这次外部冲击到底有何影响，双重差分法就是用来研究这次冲击的净效应的。

其基本思想是，将受冲击的样本视作实验组，再按照一定标准在未受冲击的样本中寻求与实验组匹配的对照组，而后做差，做差剩下来的便是这次冲击的净效应。

双重差分法实际上是固定效应的一个变种，差分的过程实际上是排除固定效应的过程。ZERA在《计量论文写作和发表的黑客教程》有一个非常简明风趣的举例，我转述于此，以飨读者。

「大家都知道买房子靠不靠学校医院等设施还是有很大差别的。但是，影响房价的因素又不止学区那么简单。

学校旁边的学区房价格上升，难道一定是学区房因素导致的吗？

现在我们要使用双重差分法检验一个假设：学区房因素导致房价上升。

差分再差分，这个方法要凑效的秘诀是：学区房因素发生变化，而其他因素基本维持不变。例如教育管理机构重新划分学区，一个著名小学突然在某个没学校的地方建分校，或者一个著名小学搬迁，这些因素导致房子是否属于学区房发生了变化。

以建分校为例。建校后周围一片区域A的房子都属于学区房，这个区域以外附近区域(B)的其他房子就不算该校学区房。然后收集建校前后两个时间点上、A和B区域房价的数据。

所谓的差分再差分法，就是：A区域两个时间点上的平均房价差距 - B区域两时间点上的平均房价差距 = d，这个d就是建校对房价的影响了。d是两个差距之间的差距，所以才叫做差分再差分。用计量回归把这个d给估计出来，是有办法的：

P= b0 + b1*Da +b2*Dt + d*(Da*Dt) + Xb + e

P是房价，Da是虚拟变数，在区域A则为1，否则为0， Dt是时间虚拟变数，建校后为1，建校前为0。 STATA一跑，就把d估计出来了。为什么d可以如此表示？自己思考一下啦。实在想不出来，Wooldridge的书上有精确严格的解释。这里给出一个直观的粗略解释：北京所有区域的房价每个月都在上升，因此需要控制这部分因素，这就是时间因素Dt；区域不同自然也有差别，需要控制区域位置因素，这就是Da，这就控制了即使不建校也存在的差距；控制住其他因素X，那么剩下的Da*Dt就是建校带来的房价提升效应了。这下明白了哦。」

当然，如果你想看到更学术化的探讨，可以参考2015年第7期《数量经济技术经济研究》所刊文章《国内双重差分法的研究现状与潜在问题》。

3.工具变数法

这是一种处理内生性问题的经典方法，或者说被滥用最严重的方法。

这种方法相信大家都已经学过，就是找到一个变数和内生解释变数相关，但是和随机扰动项不相关。在OLS的框架下同时有多个工具变数（IV），这些工具变数被称为two stage least squares (2SLS) estimator。具体的说，这种方法是找到影响内生变数的外生变数，连同其他已有的外生变数一起回归，得到内生变数的估计值，以此作为IV，放到原来的回归方程中进行回归。

工具变数法最大的问题是满足研究条件的工具变数难以找到，而不合乎条件的工具变数只能带来更严重的估计问题。

当然，我确实见过非常精巧的工具变数，譬如，殖民地时代的死亡率。

知乎-有哪些有趣的工具变数？

https://www.zhihu.com/question/27623032

4. 动态面板回归法

基本思想是将解释变数和被解释变数的滞后项作为工具变数（IV）。其实，我是不认可这种处理方法，除非万不得已，我不推荐这种方法，我也不太相信这种方法能真正缓解内生性问题。可是，确实很多人都在用。算了，不多说了。

三、内生性问题解决的案例示解

致谢：案例示解的文章，来自人大经济论坛一位版主denver所作的推介，本人从文章中收获良多。

当然，案例在解读过程中若出现偏差，由我个人负责。

文章基本故事是：股票的流动性对经理人的激励合约的设计会产生影响。具体的说，当流动性提高的时候，经理人会更加倾向于选择现金比重更小（股票比重更高）的激励合同，因为这时股票的变现成本较低；同时，高流动性意味著股票中的信息含量更高，因此薪酬与股价市场回报的敏感性（pay-for-performancesensitivity）会更高。

这里的两个被解释变数分别是cash-based compensation占total compensation的比重，以及pay-for-performance sensitivity （PPS）会更高。关键解释变数是股票流动性。

第一部分，基础计量技术，固定效应回归模型。

值得一提的是，虽然这是本文最基础的计量技术，但作者还是进行了细致改进，比如加入管理层的固定效应，以及对标准误进行了管理层层面的Cluster调整。本表似乎存在一些标注错误，注意对Lndelta的回归中，显著性的*标注似乎错误，应为两颗星。

第二部分，股票流动性与薪酬合约可能出现的内生性

1、在薪酬契约设计中更多的股权比例，意味著管理者与投资者利益的绑定，代理问题可能削弱，会吸引更多的投资者交易，这体现为良好的股票流动性；在薪酬契约设计中更多的股权比例自然会减少现金薪酬的比例，薪酬与股价回报的敏感性也会增强。这是典型的共同驱动因素所引起的内生性问题。

2、假定公司的信息披露质量很高，投资者很放心将资金投放进入该股票，该股票逐渐具有价值贮藏功能，类似可口可乐股票，其交易流动性很高；而高的信息披露质量使得股价在反映经理人行为时成为良好的业绩指标，根据标准的代理理论，这会加强其在薪酬契约中的权重，薪酬敏感性也越强。而信息披露质量似乎并未出现在作者的变数中，这种遗漏变数也会引起内生性问题。

第三部分，对内生性问题进行的解决方案

1.工具变数与两阶段最小二乘法

作者使用的是滞后一期的股票流动性和行业平均的股票流动性来工具本期的股票流动性。滞后一期的股票流动性，与遗漏变数的相关性是有疑问的，从这个角度讲作者选取的工具变数并不令人满意。

但是，既然作者能把文章发到TOP上，他必然有更好的处理方式，通过类似自然实验的方法。

2、利用自然实验。

作者选取股票拆分作为事件，因为这一事件会影响流动性，但却对薪酬合约设计没有影响。

另一个事件，是公司被选入标准普尔500，这同样是外生的，对股票流动性有影响，但对薪酬合约设计没有影响。

3、差分法

本文还考察了Inter-temporalrelation，即做组内的差分，来考察变数之间的动态关系。差分可以消除一部分不随时间变化的遗漏变数所导致的内生性问题，比如我提出的信息披露质量，可以认为在一定期间内企业的信息披露质量是稳定，从而这一方法可以削弱内生性对本文结论的影响。

四、对内生性问题解决方案的反思

在数据内生这一前提下，任何试图解决内生性问题的努力都只是削弱内生性对自己所欲证明结论的影响。解决内生性单纯依赖工具变数和两阶段最小二乘，在国际顶级的杂志上是比较少的，因为好的工具变数的寻找几乎是一件可遇不可求的事情。事实上，在顶级杂志发文，更有说服力的解决方案是寻求自然实验法。这种类似生物学控制实验的方法往往能够取得审稿人的赞同。

我引用我在「人大经济论坛」上看到的，在计量经济学版块最令我振聋发聩的一段话来做结尾。我记得作者的ID是「淘宝网橙迷橙橙」，我一直很想知道作者起这个名字的初衷。

「研究，永远是越简单越好。

能够用方差分析解决的问题，为什么要用回归？能够用一元回归解决的问题，为什么要用多元？变数越多，模型越复杂，出错的概率就越高，这是亘古不变的法则。

难道在计量的众多「花花肠子」没搞出来之前，以前的学者就无所适从了？

你看生物学研究，哪有计量这么多搞来搞去的方法？人家只要掌握了一般的多元统计，足矣！为什么？因为人家的实验设计，足以保证数据的可靠性，并控制其他变数，因此，简单的统计方法就能有效地发现因果关系。

计量为什么要强调方法？就是因为计量有先天性的缺陷：一是数据来源，很难得到有效数据，导致遗漏变数偏误和测量误差；二是无法保持「在其他条件不变的情况下，考察原因变数和结果变数之间的关系」，这是计量建模的先天不足，是无法从技术手段上解决的。而在实验室条件下，可以轻松地做到这点。从这点来说，计量只能是发现变数间的关联关系，无法确证因果关系。三是模型设定形式，你说线性就线性？两维还可以靠看散点图来判断，多维你怎么去判断？

说到底，计量就是因为数据问题、模型设定问题（包含很多不合常理的假定，如同方差 假定，实际中是不可能的），使得其先天性就存在不足，因此需要在方法上来修补其缺陷， 故其强调「方法」远胜过强调「原始数据」，而生物学统计则是强调「原始数据」远胜过强调「方法」。只要有可靠的数据，一般的方差分析也是很有力量的！

故：高手不是在模型上绕来绕去，而是大巧若工，用尽量简单的方法来得到你无法辩驳的结果！QJE和AER 上有很多这样的文章。记得社会学研究学者谢宇的一本书，里面有一段话大意是指，如果你没有足够理想的数据，那么只有很强的理论假定，才有可能得到比较显著的结果。这就告诉我们，建模思想非常关键，变数间首先必须有经得起推敲的理论与逻辑关系，然后用数据才能验证。而我们很多的研究，往往思想性不足，而技术性有余。

如果你的模型在理论上就经不起推敲，玩弄再多的计量技术又有什么用?那就真的是「Garbage in Garbage out」了」。

我对上面的观点完全赞同，数据和研究设计才是影响文章结论可靠与否的关键。复杂估计方法从来都是数据和研究设计出现缺陷时的缓解手段，注意是缓解，不是解决。与诸位共勉！

倘若文章给您带来些许收获，还请关注我的微信公众号，期待您的批评与建议。

内生性问题解决方案汇总与案例示解

热门新闻

周热门

内生性问题解决方案汇总与案例示解

如何自学计量经济学？

作为经济学专业学生，最应该学习的课程前五位是什么？

时间序列分析第三章 平稳自回归移动平均过程

2. 时间序列分析-自回归移动平均过程及脉冲响应函数

计量经济学笔记：普通最小二乘法 OLS，与高斯 - 马尔可夫定理

固定效应与随机效应的区别

xtbalance 以后: 非平衡面板之转换

政策评估(Policy Evaluation)中的因果线（一）

动态面板模型估计方法简介以及stata应用

《经济思想史》摘抄（十六）——计量经济学与经验方法

Post-selection:写在变数选择后(1)

假设检验（A/B测试）

计量经济学｜虚拟变数

计量新书: The SAGE Handbook of Regression Analysis and Causal Inference

双重差分法（DID）介绍

热门新闻

周热门

时间序列分析第三章平稳自回归移动平均过程