作者:Sean Owen
编译:weakish
相关和因果
相关性不等于因果。仅仅因为冰淇淋和美黑霜销量同时上升或下降并不意味著两者之间有什么因果关系。然而,人类的思考方式倾向于因果关系。你大概已经意识到这两种商品的销量均取决于夏季炎热的天气。那么,因果关系是一个什么样的角色?
新入行的数据科学家可能有一个印象,因果关系是一个大家避而不谈的话题。这是一个错误印象。我们使用数据决定「哪则广告将导致更多点击?」这样的事情。已经有一个易用、开放工具的生态系统,可供我们基于数据建立模型,我们觉得这些模型可以回答关于成因和效果的问题。什么时候它们确实做到了这一点,什么时候我们误以为它们做到了?
数据告诉我们什么,和我们认为数据告诉我们什么,这两者之间存在著微妙的空隙,这正是困惑和错误的源泉。新入行的数据科学家,尽管配备了强大的建模工具,仍可能成为「未知的未知」的牺牲品,即使是在简单的分析中也是如此。
本文将演示三种看起来简单的情况,这些情况会产生惊人的歧义结果。剧透:在所有情形下,因果关系是澄清数据解读必不可少的成分。包括概率图模型和do-calculus在内的激动人心的工具,能够让我们基于数据和因果关系进行推理,得出强有力的结论。
两条「最佳拟合」直线
考虑R内置的cars
数据集。这个简单的小数据集提供了不同车速的制动距离。假设低速情况下,两者的关系是线性的。
再没什么能比线性回归更简单了吧?距离是速度的函数: