作者:Sean Owen
編譯:weakish
相關和因果
相關性不等於因果。僅僅因為冰淇淋和美黑霜銷量同時上升或下降並不意味著兩者之間有什麼因果關係。然而,人類的思考方式傾向於因果關係。你大概已經意識到這兩種商品的銷量均取決於夏季炎熱的天氣。那麼,因果關係是一個什麼樣的角色?
新入行的數據科學家可能有一個印象,因果關係是一個大家避而不談的話題。這是一個錯誤印象。我們使用數據決定「哪則廣告將導致更多點擊?」這樣的事情。已經有一個易用、開放工具的生態系統,可供我們基於數據建立模型,我們覺得這些模型可以回答關於成因和效果的問題。什麼時候它們確實做到了這一點,什麼時候我們誤以為它們做到了?
數據告訴我們什麼,和我們認為數據告訴我們什麼,這兩者之間存在著微妙的空隙,這正是困惑和錯誤的源泉。新入行的數據科學家,儘管配備了強大的建模工具,仍可能成為「未知的未知」的犧牲品,即使是在簡單的分析中也是如此。
本文將演示三種看起來簡單的情況,這些情況會產生驚人的歧義結果。劇透:在所有情形下,因果關係是澄清數據解讀必不可少的成分。包括概率圖模型和do-calculus在內的激動人心的工具,能夠讓我們基於數據和因果關係進行推理,得出強有力的結論。
兩條「最佳擬合」直線
考慮R內置的cars
數據集。這個簡單的小數據集提供了不同車速的制動距離。假設低速情況下,兩者的關係是線性的。
再沒什麼能比線性回歸更簡單了吧?距離是速度的函數: