其实这不算科普,只能算扫盲贴。。。但是这个问题还是挺重要的!这个帖子是为了回答

为什么在使用最小二乘法得出参数值后,仍然要进行显著性t检验?如果不显著性影响,算出参数值接近零??

www.zhihu.com
图标

如何验证真实参数为零,但是其估计值不会是零

你可以做一个简单的实验,从下面的模型里simulate 100次

y_i = c + varepsilon_i,   quad varepsilon_i sim N(0,1)

然后你在simulate 100次这个x

x_i sim N(0, 1)

然后你回归这个模型

y_i = eta_0 + eta_1 x_i + eta_i

你会得到一个 hat{eta}_1

很明显,真实参数 eta_1 = 0 ,而我可以负责的告诉你,你这个 hat{eta}_1 肯定不是零,再小也不会是零。

事实上 hat{eta}_1 = eta_1 = 0 的概率是零。

现在说点实际的,假设你不知道 eta_1 是不是零,你看到一个很接近零但不是零的 hat{eta}_1 ,你该如何判断?要科学的判断!

这个估计值再接近零,你都不能说真实参数就是零,那是武断的不负责任的。万一真实的eta_1很小但就不是零怎么办?你要知道,很小但不是零代表有影响,这和你的y_i的数量级有关系。多小才算小是另外一个问题。

所以,你必须要要用假设检验来判断,you cannot do better without it!

假设我求得一个较大的参数估计值,并不靠近于零,那么我如何判断X是否真的对Y有影响?

还是上面那个例子,我们稍微具体化一下:

y_i = eta_0 + eta_1 x_i + eta_i

假如说,上式是真实模型, 且eta_1 = 2 ,2这个数值的数量级一般来说我们认为够大了,我们用这个模型simulate了一堆数据 (y_i , , x_i), quad i = 1, ..., n ,其中, y_ix_i 都有具体的物理意义。

我们根据这套数据做回归会得到一个很接近2的 hat{eta}_1 ,我们不做假设检验,就看 hat{eta}_1 approx 2 得出判断,x对y有影响。好,先这样,我们继续。

在实际处理中,我们可能不使用这堆数据,譬如, y_i 当前的单位是米,我要给 y_i 换个单位,我们想换成千米。这类操作很常见,属于data transformation,或者数据预处理,有的还归类于data cleaning,其实就是做一个函数变换,把 y_i 用另一个变数 z_i 替换掉,他们有一一对应的函数关系

z_i = 0.001 	imes y_i

等价于

y_i = 1000 	imes z_i

把上式带入原式有

y_i = 1000 	imes z_i = eta_0 + eta_1 x_i + eta_i

所以,在做完变换单位的数据处理之后,我们真正要回归的是

z_i = alpha_0 + alpha_1 x_i + zeta_i

其中

alpha_0 = 0.001 	imes eta_0

alpha_1 = 0.001 	imes eta_1 = 0.002

zeta_i = 0.001 	imes eta_i

根据上面那一堆数据的变换 (z_i , , x_i), quad i = 1, ..., n 我们做回归,我们会得到一个很接近0.002的 hat{alpha}_1 ,这时候我们就根据 hat{alpha}_1 approx 0 得出判断,x对z没有影响!

问题就在这里,其实完全是等价的两套数据,就因为数量级不同,不经过假设检验,我们会得出截然相反的两种推论。

所以,不做假设检验,单单看估计值的数量级作出判断是不靠谱的

而如果你做假设检验,比如t检验,只要数据相同 (z_i, y_i, x_i), quad i=1,...,n ,同一个检验做出来的显著性结果是完全一致的。


推荐阅读:
相关文章