假如數據欺騙了你：產品經理如何識破數據謊言？

數據千萬條，甄別第一條，數據不規範，老闆兩行淚。

對產品經理而言，數據無疑是工作中需要常常借鑑的對象，畢竟這是個數據推動發展的時代。數據之所以重要，正是因爲數據是記錄客觀事實的一種符號，因此在統計數據面前，許多人潛意識裏的第一反應就是無條件信任它。

但現實是，許多看似靠譜的數據，都是別有用心的機構利用了數據的客觀性，爲我們輸出了一個與現實大相徑庭的結論。雖然數據本身不會說謊，但說謊者需要數據。

數據都說了哪些謊？

1. 樣本偏差的欺騙性

（1）倖存者偏差

也叫“沉默的數據”。如果要說得更具體點，就是當你在分析某個事物的時候，可能會面對諸多的證據（樣本），但是大多數人通常只注意到“顯式”的樣本和證據，而忽略了“隱式”的樣本和證據，從而得出錯誤的認知、錯誤的結論。

下面舉一個最著名的例子：二戰期間，英國皇家空軍計劃在轟炸機上進行改造，以抵抗德軍戰鬥機和陸基高射炮的攻擊。

他們統計了聯軍返航的轟炸機受損情況，作戰指揮官認爲應該加強機翼的防護，因爲分析表明，那裏“密密麻麻都是彈孔，最容易被擊中”。但是統計學家卻有不同觀點，他建議加強座艙與機尾部位的裝甲，因爲那兒發現的彈孔最少，說明大多數被擊中飛行員座艙和尾部發動機的飛機，根本沒法返航就墜毀了。

上面的例子不是數據說謊，而是你沒注意到沉默的數據（缺少了的樣本）。當數據樣本僅採自“倖存者”、信息不夠全面的時候，得出來的結論有可能纔是最離譜的，需要分析者有足夠廣的視角和邏輯，才能從數據裏挖掘出隱性的真相。

（2）不充分的樣本數據

“用戶反映，使用A品牌牙膏將使蛀牙減少23%。”
“B品牌洗衣粉能有效減少90%種污漬殘留。”

你也許常常能從廣告中的某些權威機構、研究人員口中得知這些結論，但如果你仔細觀看，或許能看到這樣一行小字：此次實驗由**（假設30）名用戶組成，甚至有些廣告還故意抹去這些信息。這些信息意味着，只要你找來多組測試用戶，每組30人，持續使用一段時間的該品牌產品，就會得出以下的任意一種結果（以牙膏爲例）：

蛀牙明顯增多
蛀牙明顯減少
蛀牙數量無明顯變化

事實上，不管用戶使用的是哪種牙膏，由於機遇作用，第二種結果是遲早會被試驗出來的。由於試驗人數只有30人（樣本總數不大），所以得到的結論極有可能是牙膏效果極佳（蛀牙減少23%），商家就是利用這樣不充分的樣本數據，來達到預期的廣告效果。現實中，也要警惕在信息不對稱的情況下，脫離總量談現象的流氓思維。

（3）樣本本身存在偏差

假設調研一座城市的人均消費水平。如果是在飛機場調研，或許會得出“城市發達、人民收入高”等結論，但如果到貧民窟裏調查，結論就會截然相反，因爲城市裏真正貧窮的人很少會在機場出沒。

企業也常常利用這種選擇性的誤差來爲某個現象尋求合理性，比如智能手機領域喜歡用數據“打臉”友商，但是由於大家採用的統計口徑不同，所以常常在同一領域遇到數據打架的情況。

還有一種情況就是樣本不夠真實，比如全社會都在傳播“吃飯不光盤是種可恥的行爲”這種理念後，這時你再去調研這個話題，絕大多數受訪人都會表示自己是個“淨壇使者”，因爲幾乎所有調查都無法避免人們往自己臉上貼金，這種情況下除非採用匿名調查或者直接調查飯後餐桌上的盤子，否則很難獲取到完全真實的數據。

這些案例說明即便你找不到任何數據遭到破壞的證據，也很難避免樣本本身在說謊，因此只要是樣本有存在變量誤差的可能，就要保留懷疑的態度。

2. 用平均數掩蓋差距

假如把比爾蓋茨移民到某個非洲落後國家，該國的人均GDP相應地也會有很大幅度的上漲。但這有意義嗎？該國貧民窟裏的窮人依然吃不上面包。

類似的，即使某地區人均收入有了提升，但依然存在一種可能性，就是富人財富量的增加遠遠快於窮人財富量的增加，造成的結果是“數據顯示人均收入上升，但貧富差距在拉大”。

比如美國前總統奧巴馬在謀求第二任期的競選活動中提到，“美國經濟自09年以來增長了13%”。但他沒有說的是，其實美國人只有最富有的那1%的人收入增長了，剩下的99%的人收入反而比以前有輕微的下降。奧巴馬雖然贏得了連任，但“整體經濟復甦”與“大多數人的可支配收入沒有增長”的矛盾卻依然無解。

通常情況下，你並不會被告知數據包含了多少觀測值，當均值和中位數相差甚遠的時候，你就需要注意那些沒有標明類型的平均數（均值、中位數、衆數），否則你對它的認知依然停留在表面。

3. 數據的視覺欺騙性

上圖是2018年我國各省GDP的統計圖像，可以看到，同樣的數據在不同的座標軸裏呈現出來的狀態截然不同，左圖數據取等量遞增繪圖，右圖數據取十進制繪圖，呈現出來的視覺效果有相當大的不同，大多數人的第一直覺是：

左圖直觀表達各省GDP差距巨大
右圖直觀表達各省GDP差距不大

上圖是某公司四年間的收入曲線，從視覺上很容易得出以下結論：

左圖直觀表達公司四年間收入稍有波動，但相對平緩；
右圖直觀表達公司四年間收入波動巨大，目前遭遇停滯下滑的危機。

也許大家都發現了，波動是可以被人爲操縱的，但數據卻是真實的。PPT領域有一句很經典的話：能用圖，不用表，能用表，不用字。圖表誠然能幫我們更直觀的瞭解事實，但許多報告和演講就是有心利用數據的視覺誤差，誤導觀衆的判斷，分辨能力弱的讀者就容易被牽着鼻子走。

如果你細心留意的話，就能發現很多產品的發佈會和權威機構調查對這招都是屢試不爽的，雖然數據本身沒有問題，但這樣的呈現方式僅僅是爲了好看。現在是信息化時代，一段信息裏有價值的文字往往不如一張靚麗的圖表更抓人眼球，加強對數據可視化的信息分辨能力會少走很多彎路。

4. 數據不能替你思考

統計學數據表明：在夏天，“冰激凌的銷量”和“溺水死亡人數”成正比，二者的趨勢高度吻合。

看到這條信息你是選擇相信還是陷入沉思？如果我們通過這條數據強行把兩者聯繫起來分析的話，推導出來的結論很有可能是：

吃冰激凌會導致人們游泳時更容易溺水
游泳溺水時人們喜歡用冰激凌來搶救

很詫異對吧，但如果你跳脫出數據分析的思維，以常識去推理，你就知道兩者根本沒有聯繫，唯一的契合點在於“夏天天氣熱”，冰激凌的銷量會因此上升，下水游泳的人也會因此增多，自然會有更多溺水事件發生。

數據是客觀的、理智的，但人是經驗主義者，更善於用邏輯去認識和判斷事物，數據的絕對客觀性，往往會把我們被拖入單維思考的沼澤裏。

就像電影《流浪地球》的片段：以色列科學家提出點燃木星的想法，被空間站的人工智能莫斯否決。道理很簡單，莫斯作爲人工智能，是絕對理性的化身，它經過周密的科學計算後得出的結論表明：這個方案成功的概率爲零，但它忽略了人類是具有感情的生物（或許是故意忽略），衝動和情感能突破理性的底線，做出人工智能不能理解的行爲。

簡而言之，用空間站撞擊木星這種看上去不合理的感性行爲，也許恰恰不在莫斯的數據分析範圍內。

電影雖然是電影，但它能映射現實。許多在人類看來再正常不過的邏輯思維，卻是冰冷傲慢的數據分析的盲區，這本質其實是單維思考和多維思考、客觀事實和主觀邏輯的衝突。數據可以輔助你思考，但它不能代替你思考，千萬不要患上唯數據論的怪病，在認識事物的時候一定要問問自己：該相信邏輯還是該相信數據？