轉眼間,麥肯錫提出"大數據"已經十年了,如今"除了上帝,所有人都必須用數據說話"已經成爲衆多管理者的信條,無數的PPT和分析報告充斥着海量的數據;國人也開始拒絕"差不多"、"大概"等含糊字眼,似乎有了數據纔有說服力。

  在這樣的背景下,呈現出一種新的情況:被真實的數據欺騙。被騙的不僅是那些剛從信息封閉世界裏走出的人羣,也包括久經歷練的成熟管理者,被騙,有的是因爲數學不好,有的則是因爲心理原因,而更主要的原因,是發展太快了。

  【數據量加速膨脹】

  數字化的時代,技術手段越來越強大,業務應用越來越豐富,產生的數據也越來越多。EMC曾經在2010年發佈過《數字宇宙十年》的研究成果,以數字的形式展現出數據的飛速膨脹。報告中稱每年創建的數字信息量,2009年到2020年將增長44倍,而目前看起來這個速度還是被低估的。

  這就意味着,過去我們以爲的海量數據,在未來都是微不足道的;而某一領域的"小數據"和小概率事件,都可能演化爲我們如今理解的"大數據"。

  十五年前,中國移動在全國範圍建設數據倉庫,那時中國移動的規模還算不上大,企業的影響力也有限。一次在與微軟的交流時,我們屢次質疑微軟數據倉庫技術對規模化應用的成熟度,把微軟的專家問急了,說:"你們總在質疑我們的技術能不能支持TB級,我其實一直懷疑你們有沒有TB級的數據。"然後不顧瞠目結舌的我們,甩門而去。於是我們得出了這樣的結論:微軟公司缺乏電信運營商數據倉庫建設經驗。

  經過幾年的努力,我們自豪地宣佈:中國移動建成了全球最大規模的數據倉庫,系統容量達1600TB,其中有效數據容量800TB。

  這是十年前我們的"世界第一",沒過多久,大數據時代來了,中國移動在話音時代建立起的數據倉庫,其規模在流量時代顯得那麼保守,甚至比不上某一個業務所產生的數據。以前基於某一個數量級的分析可以摸索出規律來,如今同樣的分析可能得出的結論有很大侷限性,在數據分析領域裏曾經的經驗都不牢靠了。在這個時代我們都是學生,需要不斷學習纔可能跟上發展,自以爲是的結果只能是自討苦吃,自欺欺人。

  【倖存者偏差的誤判】

  伴隨着權健的熱點,"倖存者偏差"的概念呈現在公衆面前。這是一種常見的邏輯錯誤,指的是只看到經過篩選產生的結果,而沒有意識到篩選的過程以及被篩選掉的關鍵信息,因此形成了錯誤的結論。典型的被篩選掉的案例包括:吃了保健品沒有康復的人、中彈後飛不回來的飛機等等。(如果對這段內容感興趣,可以去搜索《權健密碼:倖存者偏差》)

  除了這種極端的案例,在日常中以偏概全的現象更多。完整的數據量太大,所以在數據處理之前先要進行數據的清洗和格式轉換等,在這個過程中就會篩掉很多數據和信息。有些非常有價值的數據被當作"異常數據"洗掉了。最終在驚呼中出現的黑天鵝,其實早就有跡可循,是一步步向我們走來的灰犀牛。

  數據沒有錯,錯的是數據處理的過程,再往下探一層,就是進行數據處理的人。並不是說這些數據處理者主觀上有什麼不良動機,而是很多時候對異常數據的識別和處理需要業務經驗,而有業務經驗的人不屑於去做這些底層的"體力活",這種脫節導致了數據被錯誤處理。

  隨着時代的發展,統計學、概率論等數學基礎能力的普及,越來越多的業務專家意識到數據的價值,帶着各自的興趣去觀察、分析各種各樣的數據信息,要想不被騙,必須把自己訓練得更專業。

  專業人員尚且如此,如果數據分析裏的一些技巧被惡意運用,那麼普通老百姓有多大的抵抗能力?包含着精準的數據和成功的案例,加上頗具煽動性的激情演講,再有知名人士和權威媒體的站臺,這樣的套路你能躲開多少?

  【強化偏見和執行】

  在海量數據面前,在廣闊的互聯網天地中,再偏執的觀點都可能擁有相當規模的支持者。也就是說即便有99.999%的人討厭你,你仍然可以是個萬人迷。在這種環境下,如果需要找數據和支持者來證明某些觀點,太容易了。

  我們看到很多文章和報道,都是作者預先設定立場和觀點,再去做採訪或者找數據,表面看這些證據能夠充分證明作者的論點,實現邏輯自洽;但事實真相未必。最近一段時間,很多以講故事的方式報道某極端事件的熱點文章,過不了多久就被反轉打臉,再回頭看原報道,貌似嚴謹的邏輯和推演竟都是以偏概全的一面之詞。

  這樣的問題發生在輿論媒體上,雖然會在一定程度引起混亂,但往往幾天之後熱度過去了,沒啥大不了的。但是如果企業的決策者有這樣的毛病,那問題可就大了。

  在鼓勵改革創新的時代,很多有理想有追求的企業經營管理者,不僅追求發展的整體目標,同時還希望在某一個方向或者領域留下自己的印記。這本來是好事,但如果設定的目標過於理想化,或者錯誤評估改變付出的代價,那麼變革可能給企業帶來嚴重的影響。

  如果管理者尊重實際情況,開誠佈公地與團隊溝通協商,還是能找到正確的目標以及合理的演進路徑。但偏偏有的管理者強調"執行力",強硬地對待反對聲音,就會引發內部的另一種風氣:拿數據來證明領導英明神武,用部分數據來說明改革的成功,文過飾非,看似一片歌舞昇平,其實是在錯誤的道路上越走越遠。

  前面說過,如今數據太多,可以找到論證各種論點的依據。也就是說,根據結論去找數據,就能做出一篇漂亮文章來,活生生地把科學做成了藝術,貌似解的是數學題,本質上還是在做語文,這樣做出來的分析報告和規劃,從邏輯上無法判斷其真僞,讀者對內容半信半疑,失去了價值甚至存在意義。

  【結語】

  總之,現如今,從海量數據中篩選出有價值信息的難度越來越大,篩選的規則和方法可能存在偏差,還有人刻意利用數據來包裝掩蓋真相。數據本身不會說謊,但你確實可能被真實的數據欺騙,我很討厭這樣,但是又有什麼好的解決辦法呢?

相关文章