數據千萬條,甄別第一條,數據不規範,老闆兩行淚。

假如數據欺騙了你:產品經理如何識破數據謊言?

對產品經理而言,數據無疑是工作中需要常常借鑑的對象,畢竟這是個數據推動發展的時代。數據之所以重要,正是因爲數據是記錄客觀事實的一種符號,因此在統計數據面前,許多人潛意識裏的第一反應就是無條件信任它。

但現實是,許多看似靠譜的數據,都是別有用心的機構利用了數據的客觀性,爲我們輸出了一個與現實大相徑庭的結論。雖然數據本身不會說謊,但說謊者需要數據。

數據都說了哪些謊?

1. 樣本偏差的欺騙性

(1)倖存者偏差

也叫“沉默的數據”。如果要說得更具體點,就是當你在分析某個事物的時候,可能會面對諸多的證據(樣本),但是大多數人通常只注意到“顯式”的樣本和證據,而忽略了“隱式”的樣本和證據,從而得出錯誤的認知、錯誤的結論。

下面舉一個最著名的例子:二戰期間,英國皇家空軍計劃在轟炸機上進行改造,以抵抗德軍戰鬥機和陸基高射炮的攻擊。

他們統計了聯軍返航的轟炸機受損情況,作戰指揮官認爲應該加強機翼的防護,因爲分析表明,那裏“密密麻麻都是彈孔,最容易被擊中”。但是統計學家卻有不同觀點,他建議加強座艙與機尾部位的裝甲,因爲那兒發現的彈孔最少,說明大多數被擊中飛行員座艙和尾部發動機的飛機,根本沒法返航就墜毀了

上面的例子不是數據說謊,而是你沒注意到沉默的數據(缺少了的樣本)。當數據樣本僅採自“倖存者”、信息不夠全面的時候,得出來的結論有可能纔是最離譜的,需要分析者有足夠廣的視角和邏輯,才能從數據裏挖掘出隱性的真相。

假如數據欺騙了你:產品經理如何識破數據謊言?

(2)不充分的樣本數據

  • “用戶反映,使用A品牌牙膏將使蛀牙減少23%。
  • “B品牌洗衣粉能有效減少90%種污漬殘留。

你也許常常能從廣告中的某些權威機構、研究人員口中得知這些結論,但如果你仔細觀看,或許能看到這樣一行小字:此次實驗由**(假設30)名用戶組成,甚至有些廣告還故意抹去這些信息。這些信息意味着,只要你找來多組測試用戶,每組30人,持續使用一段時間的該品牌產品,就會得出以下的任意一種結果(以牙膏爲例):

  • 蛀牙明顯增多
  • 蛀牙明顯減少
  • 蛀牙數量無明顯變化

事實上,不管用戶使用的是哪種牙膏,由於機遇作用,第二種結果是遲早會被試驗出來的。由於試驗人數只有30人(樣本總數不大),所以得到的結論極有可能是牙膏效果極佳(蛀牙減少23%),商家就是利用這樣不充分的樣本數據,來達到預期的廣告效果。現實中,也要警惕在信息不對稱的情況下,脫離總量談現象的流氓思維。

(3)樣本本身存在偏差

假設調研一座城市的人均消費水平。如果是在飛機場調研,或許會得出“城市發達、人民收入高”等結論,但如果到貧民窟裏調查,結論就會截然相反,因爲城市裏真正貧窮的人很少會在機場出沒。

企業也常常利用這種選擇性的誤差來爲某個現象尋求合理性,比如智能手機領域喜歡用數據“打臉”友商,但是由於大家採用的統計口徑不同,所以常常在同一領域遇到數據打架的情況。

還有一種情況就是樣本不夠真實,比如全社會都在傳播“吃飯不光盤是種可恥的行爲”這種理念後,這時你再去調研這個話題,絕大多數受訪人都會表示自己是個“淨壇使者”,因爲幾乎所有調查都無法避免人們往自己臉上貼金,這種情況下除非採用匿名調查或者直接調查飯後餐桌上的盤子,否則很難獲取到完全真實的數據。

這些案例說明即便你找不到任何數據遭到破壞的證據,也很難避免樣本本身在說謊,因此只要是樣本有存在變量誤差的可能,就要保留懷疑的態度。

2. 用平均數掩蓋差距

假如把比爾蓋茨移民到某個非洲落後國家,該國的人均GDP相應地也會有很大幅度的上漲。但這有意義嗎?該國貧民窟裏的窮人依然吃不上面包。

類似的,即使某地區人均收入有了提升,但依然存在一種可能性,就是富人財富量的增加遠遠快於窮人財富量的增加,造成的結果是“數據顯示人均收入上升,但貧富差距在拉大”

比如美國前總統奧巴馬在謀求第二任期的競選活動中提到,“美國經濟自09年以來增長了13%”。但他沒有說的是,其實美國人只有最富有的那1%的人收入增長了,剩下的99%的人收入反而比以前有輕微的下降。奧巴馬雖然贏得了連任,但“整體經濟復甦”與“大多數人的可支配收入沒有增長”的矛盾卻依然無解。

通常情況下,你並不會被告知數據包含了多少觀測值,當均值和中位數相差甚遠的時候,你就需要注意那些沒有標明類型的平均數(均值、中位數、衆數),否則你對它的認知依然停留在表面。

3. 數據的視覺欺騙性

假如數據欺騙了你:產品經理如何識破數據謊言?

上圖是2018年我國各省GDP的統計圖像,可以看到,同樣的數據在不同的座標軸裏呈現出來的狀態截然不同,左圖數據取等量遞增繪圖,右圖數據取十進制繪圖,呈現出來的視覺效果有相當大的不同,大多數人的第一直覺是:

  • 左圖直觀表達各省GDP差距巨大
  • 右圖直觀表達各省GDP差距不大
假如數據欺騙了你:產品經理如何識破數據謊言?

上圖是某公司四年間的收入曲線,從視覺上很容易得出以下結論:

  • 左圖直觀表達公司四年間收入稍有波動,但相對平緩;
  • 右圖直觀表達公司四年間收入波動巨大,目前遭遇停滯下滑的危機。

也許大家都發現了,波動是可以被人爲操縱的,但數據卻是真實的。PPT領域有一句很經典的話:能用圖,不用表,能用表,不用字。圖表誠然能幫我們更直觀的瞭解事實,但許多報告和演講就是有心利用數據的視覺誤差,誤導觀衆的判斷,分辨能力弱的讀者就容易被牽着鼻子走。

如果你細心留意的話,就能發現很多產品的發佈會和權威機構調查對這招都是屢試不爽的,雖然數據本身沒有問題,但這樣的呈現方式僅僅是爲了好看。現在是信息化時代,一段信息裏有價值的文字往往不如一張靚麗的圖表更抓人眼球,加強對數據可視化的信息分辨能力會少走很多彎路。

4. 數據不能替你思考

統計學數據表明:在夏天,“冰激凌的銷量”和“溺水死亡人數”成正比,二者的趨勢高度吻合。

看到這條信息你是選擇相信還是陷入沉思?如果我們通過這條數據強行把兩者聯繫起來分析的話,推導出來的結論很有可能是:

  1. 吃冰激凌會導致人們游泳時更容易溺水
  2. 游泳溺水時人們喜歡用冰激凌來搶救

很詫異對吧,但如果你跳脫出數據分析的思維,以常識去推理,你就知道兩者根本沒有聯繫,唯一的契合點在於“夏天天氣熱”,冰激凌的銷量會因此上升,下水游泳的人也會因此增多,自然會有更多溺水事件發生。

數據是客觀的、理智的,但人是經驗主義者,更善於用邏輯去認識和判斷事物,數據的絕對客觀性,往往會把我們被拖入單維思考的沼澤裏。

就像電影《流浪地球》的片段:以色列科學家提出點燃木星的想法,被空間站的人工智能莫斯否決。道理很簡單,莫斯作爲人工智能,是絕對理性的化身,它經過周密的科學計算後得出的結論表明:這個方案成功的概率爲零,但它忽略了人類是具有感情的生物(或許是故意忽略),衝動和情感能突破理性的底線,做出人工智能不能理解的行爲。

簡而言之,用空間站撞擊木星這種看上去不合理的感性行爲,也許恰恰不在莫斯的數據分析範圍內。

電影雖然是電影,但它能映射現實。許多在人類看來再正常不過的邏輯思維,卻是冰冷傲慢的數據分析的盲區,這本質其實是單維思考和多維思考、客觀事實和主觀邏輯的衝突。數據可以輔助你思考,但它不能代替你思考,千萬不要患上唯數據論的怪病,在認識事物的時候一定要問問自己:該相信邏輯還是該相信數據?

如何避免數據說謊

通過上面的案例我們可以知道,數據是客觀產生的,它只能反映問題,不會主動撒謊,真正說謊的兇手有三個“人”:

  1. 記錄數據的人(數據的真實性)
  2. 拿數據給你看的人(利用數據的目的)
  3. 自我的認知錯誤(解讀出現偏差)

1. 數據的真實性

解決的方法,第一件要預防數據生病,就是辨別數據可信度(真實性)。簡單來說,通常要遵循兩個原則:越接近第一手的數據越真實,採集的樣本越全面越可信。

例如互聯網產品經理常常更關心數據分析的結論,而忽視了原始數據的來源和真實性,源頭如果出現問題,一切的分析都是徒勞的。如果你更關心渠道數據的精準度,可以使用openinstall進行渠道來源歸因統計和活動推廣效果監測,openinstall在渠道數據精準度上還是比較專業的。

2. 利用數據的目的

我們要明白統計數據的真實價值:數據是用來揭示事物規律,進而解決問題、創造未來的。如果結論本身已經客觀存在,你用再多的數據也無法讓結論變得更加正確,如果有人想要找到某個證據(數據)來論證觀點,方法多的是,早晚能夠找到。

讓數據來回答問題,然後從這些數據中創造更多的可能,這纔是數據存在的現實意義,也是用來辨別哪些人在利用數據說謊的方法。

3. 解讀出現偏差

要善用常識性的思維和多個角度去看待客觀事物的發展,既認識到數據和統計學的力量,也要了解它的侷限性。當然,這也需要我們有基礎的數理科統計知識儲備。

數據和模型只是人們用來總結改進的方法,實踐纔是真理,如果想要更深層次的解讀數據背後的意義,就要自己多去挖掘和實踐。

總結

真實深度的數據在工作中是非常有參考價值的,尤其能幫助我們建立分析框架,彌補思維漏洞。要知道,數據並不能代替分析人員做決定,獲取真實數據、善於運用數據、識破數據騙局,是需要長期培養和掌握的技能。

本文由 @大城小事 原創發佈於人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基於CC0協議

相关文章