台湾 || 语言: 大陆简体港澳繁體台灣正體

为什么在使用最小二乘法得出参数值后，仍然要进行显著性t检验？

雪花台湾 2019-05-08 19:20

其实这不算科普，只能算扫盲贴。。。但是这个问题还是挺重要的！这个帖子是为了回答

为什么在使用最小二乘法得出参数值后，仍然要进行显著性t检验？如果不显著性影响，算出参数值接近零？?

www.zhihu.com

如何验证真实参数为零，但是其估计值不会是零

你可以做一个简单的实验，从下面的模型里simulate 100次

然后你在simulate 100次这个x

然后你回归这个模型

你会得到一个 $hat{eta}_1$ 。

很明显，真实参数，而我可以负责的告诉你，你这个 $hat{eta}_1$ 肯定不是零，再小也不会是零。

事实上 $hat{eta}_1 = eta_1 = 0$ 的概率是零。

现在说点实际的，假设你不知道是不是零，你看到一个很接近零但不是零的 $hat{eta}_1$ ，你该如何判断？要科学的判断！

这个估计值再接近零，你都不能说真实参数就是零，那是武断的不负责任的。万一真实的很小但就不是零怎么办？你要知道，很小但不是零代表有影响，这和你的的数量级有关系。多小才算小是另外一个问题。

所以，你必须要要用假设检验来判断，you cannot do better without it!

假设我求得一个较大的参数估计值，并不靠近于零，那么我如何判断X是否真的对Y有影响？

还是上面那个例子，我们稍微具体化一下：

假如说，上式是真实模型，且，2这个数值的数量级一般来说我们认为够大了，我们用这个模型simulate了一堆数据，其中，和都有具体的物理意义。

我们根据这套数据做回归会得到一个很接近2的 $hat{eta}_1$ ，我们不做假设检验，就看 $hat{eta}_1 approx 2$ 得出判断，x对y有影响。好，先这样，我们继续。

在实际处理中，我们可能不使用这堆数据，譬如，当前的单位是米，我要给换个单位，我们想换成千米。这类操作很常见，属于data transformation，或者数据预处理，有的还归类于data cleaning，其实就是做一个函数变换，把用另一个变数替换掉，他们有一一对应的函数关系

等价于

把上式带入原式有

所以，在做完变换单位的数据处理之后，我们真正要回归的是

其中

根据上面那一堆数据的变换我们做回归，我们会得到一个很接近0.002的 $hat{alpha}_1$ ，这时候我们就根据 $hat{alpha}_1 approx 0$ 得出判断，x对z没有影响！

问题就在这里，其实完全是等价的两套数据，就因为数量级不同，不经过假设检验，我们会得出截然相反的两种推论。

所以，不做假设检验，单单看估计值的数量级作出判断是不靠谱的！

而如果你做假设检验，比如t检验，只要数据相同，同一个检验做出来的显著性结果是完全一致的。

推荐阅读：

相关文章