數據要產生價值首先需要理解業務。因此,數據分析的第一步,不是分析數據,而是分析業務。把一個具體的業務問題,抽象成為一個關於Y和X的數據可分析問題。其中,確定因變數Y尤其重要,因為Y描述了業務的核心訴求。

1確定業務的核心訴求

Y,也被稱為因變數,在英文中被稱為Response,也被叫做Dependent Variable,這是從統計學技術的角度講。從業務角度,Y是業務的核心訴求。如果Y定義準確,後續的數據分析,就會準確瞄準業務的核心訴求,更可能產生商業價值。相反,如果Y定義有偏差,那麼後續的數據分析,就會在錯誤的方向上一路狂奔。

不就是定義一個Y麼,有什麼了不起?很容易嘛。如果你是一個學過數據模型的同學,你更會認為這個事情太簡單。為什麼?因為在你的傳統學習過程中,Y從來都是老師、或者教科書上直接給定的。你從來不需要思考這個問題,你認為一個定義準確的Y是理所應當的,你take it for granted。今天就要糾正這個錯誤的認識。我要告訴你,定義一個準確的Y,不僅僅重要,而且常常是不平凡的。

01

有朋友在一個大型航空企業工作(例如:國航、南航、東航等),他的工作內容是航線運營。工作目標是優化航線運營效率。啥意思?翻譯成簡單的語言就是,對公司而言,在一個特定的時間,兩個特定的城市,是否應該開設一個或者多個航班?什麼價格?安排什麼樣的飛機?我國有兩百多個民航機場,該公司規模不小,航線覆蓋了大多數城市。從理論上講,任何兩個城市之間,都是可以開一個航線的。但是,如果全部開設,顯然需要巨大的運力,超出了航空公司的能力範疇。另外,即使有足夠運力支持所有的航線,很多航線的運營效益也會非常差。很難想像,兩個非常偏僻的小機場之間,如果開一個直飛航班,會有多少乘客?盈利的可能性有多大?所以,這位朋友的任務就是,仔細分析各種數據,然後選擇最優的航線,最優的時間,配給相應的飛行資源,達到提高運營效益的目的。對於這樣一個業務問題,應該如何定義因變數Y?

懷著這樣的好奇心,我曾經請教過這位朋友。他告訴我,公司對航線運營效益的評估標準就是:飛機上每一個座位,飛行一公里產生的收入。為了方便起見,稱這個指標為:單座飛行效率。這就是在實際工作中對運營效益的一種定義。大家看:這個定義怎樣?這是一個非常可測量的指標,而且好懂。如果定義這是Y,後續的數據分析就會研究:對於什麼樣的起點城市,什麼樣的終點城市,在什麼季節,什麼時間,配給什麼類型的飛機,能產生多大的單座飛行效率?然後,根據相應的分析結果,配給最優的航線運力資源組合。這個分析怎樣?有重大缺陷,為什麼?如果只考慮單座飛行效率,不用分析都知道,商務機的效益最好。那所有航線,都飛商務機好了。你覺得如何?航空公司會採納這樣的建議嗎?顯然不能。為什麼?因為能坐商務機的乘客數目太少了,相應的收入總量是很小的。事實上,絕大多數航空公司的主要收入,都是普通飛機上普通乘客貢獻的。因此,僅單座飛行效率一個指標,不足以刻畫航線運營效益。顯然還需要一個指標,另外一個Y,刻畫客運總量(例如:總乘客飛行里程)。客運總量乘以單座飛行效率,再乘以飛行距離,是這個航線的實際收入。所以需要認真思考一下,這裡的業務訴求到底是什麼。我們已經看到了三個不同的,看起來都是合理的Y。第一個是單座運營效率,第二個是客運總量,第三個是實際收入。到底是哪個?只有企業自己經過認真思考後,纔能夠確定。如果確定正確,數據分析纔可能產生價值。否則只會添亂子。

難道企業自己說不清楚自己的訴求嗎?企業管理者,對自己業務的核心訴求,應該可以說得清楚吧,我曾經也有這樣天真的預期。但是實際經驗證明:大多數情況下,客戶的訴求自己是說不清楚的。一個數據分析師是否優秀,首先表現在分析業務的能力上,而不是以編程為核心的分析數據能力。一個足夠優秀的分析師,能夠把客戶非常模糊的訴求,梳理成一個清晰規範的數據可分析問題,從中提煉出一個準確的因變數Y,進而知道下一步的數據分析。這纔是最優秀的數據分析師應該有的樣子。

02

再討論一個案例,假設你在一個電商網站(例如:京東)負責客戶關係管理,你負責運營一個VIP會員計劃(例如:京東的PLUS會員)。你為VIP會員提供很多福利,例如:很多商品有會員價格,更多的會員積分,專屬的客服,甚至有線下活動。你工作兢兢業業,非常努力。等到年底考覈了,領導說:小王啊,咱們這個VIP會員計劃執行一年了,效果如何啊?請問:你該如何應答?這個問題不好回答。為什麼?因為:什麼是「效果」,什麼是領導心中的那個「效果」,並不清楚。甚至有可能領導自己也說不清楚。如果沒有一個儘可能清晰的定義,大家認可的「效果」,就沒法回答這個看似普通的問題。所以,要回答這個問題,首先要理清什麼是「效果」,而「效果」就是本案例中的因變數Y。

如果現在企業處在關鍵的擴張期,一方面公司通過各種市場手段獲得新客戶,但是,另一方面老客戶的流失也非常嚴重,令人心痛。此時,對於現階段的公司而言,客戶關係管理的第一「效果」就是「流失率」。如果是這樣,相應的數據分析應該以客戶是否流失為因變數Y(也需要仔細定義,不容易),同時採集大量的相關因素做解釋性變數X(例如:性別、年齡、收入、購買習慣等)。其中一定要注意採集一個最重要的X:是否是VIP會員(例如:X=0表示普通會員;X=1表示VIP會員)。通過回歸分析的技術手段,可以評價「是否是VIP會員」對客戶流失的概率是否有顯著的影響。如果有,該影響有多大。再進一步,我們還希望知道對於什麼樣的客戶(例如:不同性別、不同年齡、不同職業),VIP會員的效果大,而什麼樣的客戶效果差。這才能科學、系統、全面地回答「效果」問題。

當然,也有可能企業已經進入了平穩發展期。在這個階段,客戶數目已經很穩定了。因此,現階段的主要運營目標是要收入。因此,目前公司最看重的「效果」是「利潤」。如果是這樣,那麼相應的數據分析應該以客戶為公司貢獻的收入(例如:ARPU值)為因變數Y。跟前面一樣,同時還需要採集大量的相關因素做解釋性變數X。其中千萬要記住最重要的X變數:是否是VIP會員。通過回歸分析的技術手段,可以評價「是否是VIP會員」對客戶收入是否有顯著的影響,有什麼樣的影響。如此這般,才能更好地回答「效果」問題。

03

作為本節的最後一個案例,咱們再討論一下前面第三章所提到過的卡車車聯網案例。最開始,合作夥伴(一個卡車物流企業)提出的業務需求是這樣的:能否通過卡車車聯網數據,改善卡車駕駛員的駕駛行為?讓他們的駕駛行為變得更好。請問:啥叫駕駛行為「好」,「好」對應的Y是什麼?是不是長得帥就叫好?如果是,那麼所有的卡車司機都應該去一趟韓國整容!顯然不是。是不是穿西裝打領帶就叫好?如果是,那以後就得給卡車司機配西裝,配領帶!顯然也不是。到底什麼叫「好」,是需要深刻分析的業務問題。這個問題的答案,決定了因變數Y的選擇,決定了後續數據分析的方向。最後,在充分深入溝通後,確定了兩個Y。如果一個司機,在兩個Y上的表現都很好,那麼這個司機就是真的好。這兩個Y是什麼?第一個Y是交通違章的記錄。一個卡車司機,如果經常違章駕駛,這可不是好事。第二個Y就是油耗,對此前面第三章有很詳細的討論,這裡就不再贅述。至此,所有人在業務的核心訴求上達成了高度的一致,形成兩個非常有意義的,而且被各方高度認可的Y。這成了後續深入合作和業務開展的一個良好基礎。

2雙縱橫對比兩步法

前面的討論表明,找到一個準確的Y,是一個很重要,但卻不平凡的事情。這背後有沒有可複製的方法論指導我們,在實踐中儘可能地找到準確的Y?為此,我分享一個行之有效的方法論,叫做:「縱橫兩步法」。假設要分析的業務問題已經確定了,並且業務專家對於具體業務的好壞有一個基本的判斷。如果這個前提都沒有,那說明數據分析的時機還不成熟,因為業務自己都還稀里糊塗。現在假設業務是不糊塗的,對於具體業務的好壞是有基本判斷的。在這樣一個前提假設下,可以通過縱橫對比兩步法,快速找到一些靠譜的Y。這些Y,也許不盡完美,但可以為後續的研究改進提供一個不錯的起點。

所謂縱橫對比兩步法,是說這個方法分為兩個步驟。

第一個步驟,是縱向對比。也就是說,業務自己跟自己對比。問這樣一個問題:業務應該怎樣纔算好?怎樣纔算差?業務就好比一個小夥子,問自己:怎樣才能更帥?怎樣才能更醜?如果長得更高,叫做更帥,那麼一個可能的Y就是身高。但是,光長得高還不夠,可能還需要多金。如果是這樣,那就得把收入這個Y也考慮進去。也許還不夠,可能還需要高學歷, 那就得把學歷這個Y也考慮進去。通過縱向對比,你可以梳理對業務問題「帥」的認識。通過對比「帥」和「醜」,深刻理解「帥」的內涵,並抽象成為可被記錄的指標。縱向對比也有一個壞處,那就是常常會產生很多Y。因為人們對「帥」的理解定義,非常豐富。因此會產生多個,看起來都合理的Y。接下來怎麼辦?

第二個步驟,橫向對比。所謂橫向對比,就是把前面產生的多個Y進行橫向對比。需要分析:這麼多Y裡面,到底哪個是最重要的?或者哪幾個是最重要的?留下重要的Y,剔除不重要的Y,把Y的個數降下來,越少越好。Y的個數越少,說明業務價值定義越聚焦,後續分析準確性越高,產生價值的可能性越大。相反,Y的個數越多,說明業務價值越混亂,後續分析的盲目性越大,產生價值的可能性越小。

假設有一個帥哥A,特別高,但是特別窮。也就是說在一個Y(身高)上表現特別好,另一個Y(財富)上表現特別差。但是,帥哥B,恰恰相反。個子特別矮,但是特別富有。請問咱們的業務專家(一位想找男朋友的姑娘):這兩個帥哥,各有千秋,你覺得相比較而言,到底哪個更帥?咱們的業務專家會有什麼回答?有三種可能的答案。第一種答案是:顯然A更帥,對於我更看重身高,個子高最重要!如果是這樣,就可以把財富這個Y,往後放放。第二個可能的答案是:哇塞,這還真不好說,我覺得都挺重要。這說明,這兩個Y可能都重要,沒法互相替代。在這種情況下,兩個Y都保留。但是,前面說了,保留太多的Y,可不是好事。所以,我個人的建議是,盡量不要讓第二種情況發生。還有最有趣的第三種可能,業務專家會說:哦,其實我說錯了,身高,財富都不是我關心的問題。我最關心的是:他的學歷是不是特別高。如果是高學歷,其他的我都不介意。如果是這樣,那麼學歷纔是業務真正關心的那個Y。

﹏﹏﹏﹏

接下來,結合之前的案例,具體演示一下航空運營的例子。怎樣確定合理的Y?畢竟數據分析師,一般都不是業務專家。再有經驗的數據分析師,對業務的感受,都不如一線專家深刻。所以,可以採用縱橫對比兩步法進行分析。第一步,縱向對比。請問,什麼樣的航線的運營算是好,什麼樣的算是不好?這個問題非常直接,對方會如何回答?十有八九不是單座飛行效益。而是:航線收入、利潤、或者客流量這樣的大指標。這就是縱向對比第一步。然後,橫向對比,可以再問:給定兩個不同的航線,一個是收入高(第一個Y高),但是利潤低(第二個Y低);另一個是收入低(第一個Y低),但是利潤高(第二個Y高),哪個航線的運營算是更好的?這時候,業務主管就開始猶豫。他也許會說:收入高的,都是熱點航線,是重要航線,是兵家必爭之地,在這樣的航線上保留強大的存在感,對市場地位極其重要。但是,畢竟競爭激烈,這些地方經常賠錢,沒有其他流量小一點的,但是高利潤的航線支持,這個戰場也堅持不下去。如果是這樣,結論是什麼?結論是:也許就需要兩個不同的Y。一個關乎收入,一個關乎利潤,不需要更多了。那你會問:單座飛行效益呢?這似乎不是一個非常重要的Y。

﹏﹏﹏﹏

再演示一下卡車車聯網的案例。對方是一個物流企業,業務訴求是:改善駕駛員的駕駛行為。第一步,縱向對比。請問:什麼樣的行為是好行為?好駕駛員都是什麼樣的?壞駕駛員是啥樣的?也許會說:好駕駛員素質高,說話客氣,講文明懂禮貌。是這樣嗎?如果是:咱們就定義Y是駕駛員的文明禮貌程度,然後以後每天上班第一個三十分鐘做文明禮貌培訓,業務主管一定不會同意的。業務主管告訴我們:好的駕駛員,不給公司添亂。可以繼續問:啥叫添亂?難不成打羣架?顯然不是。添亂就是,老是違章,被扣分罰款。搞得公司也要挨批評。噢,知道了吧,什麼是「添亂」,添亂就是違章,違章就是我們的第一個重要的Y。可以再問:好的駕駛員還有什麼特徵?答:省錢,成本低。那降低駕駛員工資如何?業務主管會說:這可不行。駕駛員一分經驗,一分價格。我們運送的貨物,都價值高昂,可不能出錯。所以,我們都用非常有經驗的老司機,他們的工資可一分錢都不能少。你接著問:那怎麼辦?能有什麼辦法降低成本?業務主管告訴你,其實還有一個成本,比駕駛員工資要高多了去了。那是啥?答:油費。大卡車消耗汽油(或者柴油)可是很大的成本。每年公司有上億的費用,用在這個上面,用得莫名其妙。如果能在這方面,有所節省,那也是很棒的事情。看到沒,第二個因變數Y出來了。

接下來,再做橫向對比。兩個司機,一個從不違規(第一個Y很好),但是油耗很大(第二個Y很差)。另一個,經常違規(第一個Y很差),但是油耗很小(第二個Y很好)。哪一個更好?也許對方會告訴你,他喜歡第二個。為什麼,因為:(1)幹咱們這一行的,天天在路上跑,哪能不濕腳?違章令人不開心,但可以理解;可是(2)這個過高油耗,可不正常。嚴重懷疑這個司機在偷油,或者拉私活。這可是誠信問題,是大問題。當然,換一個老闆,也許是完全另外一個看法。老闆也許會認為,違章是很不好的事情,造成公司總是被批評處罰,影響公司的形象。所以,違章是一個更加重要的Y。但是,無論哪種情況,希望你都可以梳理清楚,到底哪一個Y更加重要。 

3不存在完美定義的Y

到這裡,你也許會想,既然Y如此重要,那就得小心選取,精益求精,爭取定義一個完美的Y。如果是這樣,得趕緊糾正這個錯誤的想法。這個想法會把你帶到一個深坑裡去。為什麼?因為:沒有任何業務的Y是可以完美定義的。

航線運營的案例最後提到,有三個Y可供選擇,第一個是單座運營效益,第二個是客運總量,第三個是實際收益。假設,經過大家認真討論,認為第三個選擇:實際收益,纔是業務的最核心訴求,那麼:什麼樣的Y才能完美反映「收益」這個概念呢?你也許會說,那就是收入。沒錯,收入是一個選擇,但是收入沒有考慮到運營成本。如果考慮運營成本,那就要考慮利潤。沒錯,利潤也是一個選擇,但是對於一個新開拓的航線,一時半會兒不能盈利,這是非常正常的,對這樣的航線,更關注收入。你看,這多矛盾,咋說都不對。而且無論是收入還是利潤,咱們關心的是短期的還是長期的呢?多長纔是長期呢?是的,真實的世界就是這樣的,沒有任何一個Y是可以被完美定義的。要坦然接受不完美性,但這並不妨礙定義一個合理而且有用的Y。對於這個案例而言,如果大部分航線都很成熟,收入不可能再大幅度上升了,那就考慮利潤,因為畢竟這纔是能夠歸屬股東的利益。如果今年公司的核心目標是擴大市場,那也許收入纔是更重要的。無論哪種情況,都沒有完美的Y,但是卻都有不錯的,可以接受的Y。

﹏﹏﹏﹏

再看卡車車聯網案例。其中,有一個重要的被所有人都認可的Y是「違章」。請問:什麼叫違章?答:被警察叔叔當場抓獲的違章(例如:闖紅燈)是違章嗎?我同意。那非現場的,被攝像頭抓拍的(例如:超速)呢?你會說:那當然也算。沒有被警察叔叔抓現場的,也沒有被攝像頭抓拍的,但是被咱們家的車聯網設備記錄下來的超速行為,算不算違章?說個大實話,即使一個開車非常謹慎小心的人,也難免在高速上,可能一腳油門下就超速了。在我看來這是很正常的,不值得在這個業務問題背景下,成為「違章」這個因變數記錄的內容。當然,你可以有不同的看法。但是,無論是哪種看法,你會發現,關於「違章」這個Y沒有絕對完美的定義。

﹏﹏﹏﹏

再看消費金融,催生了大量的小貸公司。小貸公司的業務很簡單,就是給有小貸需求的普通人,在合理信用評估的前提下,提供小額信貸支持。雙方約定,在一定時間內,按照一定利率還錢。作為借貸一方的小貸公司,要承受很大的違約風險。因此,任何有規模的小貸公司,都要對「違約」這個Y做非常認真的分析。請問:什麼叫違約?我向你借了100元,約定下週一中午12點前,連本帶息歸還101元。怎麼做才叫違約?第一種答案是:只要過了下週一中午12點,還沒有還錢,這就是違約。如果你是非常強勢的大銀行,估計還可以。但是,小貸公司在放貸的時候,常常都是無抵押貸款,風險巨大。時時刻刻都面臨借貸者跑路的風險。所以,也許由於我太忙了,還錢稍微延遲一天半天的,這都不是事,因為我畢竟沒有跑路。在小貸公司眼裡,我仍然是一個非常好的優質客戶。如果延遲一天半天不算跑路,不算違約,那麼:到底遲到多久纔算跑路,纔算違約?各個小貸公司都有自己的規定。例如:延遲1周,還不還錢,這就算作跑路違約了。那我問你:差1秒延遲1周算不算?按照你的規定,不算。但是,延遲1周,和差1秒延遲一週,有任何本質區別嗎?顯然沒有。這說明什麼?這說明這樣定義的Y,雖然對實際業務很有幫助,但是仍然不甚完美。有可能存在完美定義的Y嗎?不可能。

﹏﹏﹏﹏

再看客戶關係管理,其中的一個核心問題是:客戶流失。請問:什麼叫做客戶流失?假設我是一個聯通用戶,對聯通服務可能不滿意,請問:在什麼情況下,聯通可以認定我已經「流失」了。如果我去聯通營業廳,告訴聯通,我真不喜歡你們的服務,我決定註銷我的電話號碼,停止使用聯通的無線通訊服務。請問:這是不是流失?絕大多數朋友都會說:是啊,這還能不是嗎?請問真的是這樣嗎?假設我銷號的瞬間,後悔了!我覺得聯通還是挺好的。剛剛銷號完畢,我又趕緊辦了一個新的聯通電話號碼,而且保持跟原來一模一樣的套餐服務。請問:我流失了嗎?顯然沒有啊,因為事實上,我跟聯通的合作關係沒有一秒鐘的斷開過。由此可見,即使是大家都認可的金標準,「銷號退網」,也不能成為客戶流失的完美判斷標準。有朋友可能會說:一般而言,運營商會認為,連續3個月不繳費,也不使用任何服務的用戶,事實上已經流失了。憑什麼3個月是一個金標準?要是三個月差1秒呢?三個月多1秒呢?這有啥本質區別嗎?顯然沒有。因此,這也不是一個完美的標準。深入思考一下,也許「客戶流失」自己本身就是一個偽命題。在這個世界裡,客戶一會用這家運營商,一會用那家,一會離開,一會又回來,往複循環,沒頭沒尾。哪有「流失」可言。但是,為什麼企業中人們關心「流失」呢?其實他們關心的是客戶的一個狀態,一個「不怎麼活躍,不怎麼跟我玩了」的狀態而已。只是這個狀態描述起來,實在囉嗦,於是乎,決定用一個詞「流失」方便指代了,僅此而已。

事實上,所有的業務問題,都不存在完美定義的Y。因為,業務的核心訴求本身就不是絕對清晰定義的。因此,在實際工作中,對於Y的定義,不能追求完美,而是追求合理,追求對業務有切實的幫助,點到為止。

4瞄準真實的業務目標

數據要產生價值,需要一個合理定義的Y,瞄準真實的業務價值。因此,Y必須來自真實的業務實踐,要瞄準真實的業務目標。

曾經有一個消費信貸企業,做了一個數據分析競賽。競賽的目的是多方面的。一方面,通過競賽活動,擴大企業知名度,尤其要提高企業在老師同學心目中的形象,為未來人才招聘與儲備,做好市場鋪墊。另一方面,通過數據分析競賽,希望能找到並吸引優秀的數據科學人才來公司工作。為此,企業給出的競賽題目來自真實的信貸實踐。真實的信貸場景是這樣的,一位需要短期小額資金周轉的潛在客戶,希望獲得一筆小額貸款(例如:2萬元)。於是,他通過訪問企業網站,提交大量關於個人信用資質的材料,希望在這些材料的支持下能夠獲得批准。從回歸分析的角度看,該客戶提交的所有資料,都屬於X的範疇。無論是信貸員,還是徵信模型,本質上就是通過分析這些X,對未來的信貸風險有所判斷。為此,需要建立一個回歸分析模型。請問:Y應該是什麼?兩個選擇:(1)一個用戶申請過程中,審批業務員是否通過;(2)通過後的申請,最終是否違約?

當時競賽數據中Y的選擇是(1),請問:你如何評價?如果我們採用(1),那麼因變數就是:Y=1(審批業務員通過),或者Y=0(審批業務員不通過)。那麼,相應的回歸模型學習的就是業務員的決策規律,而不是最後的違約行為。這樣做有以下幾個問題。第一、這麼做背後有一個假設,那就是審批業務員的決定是絕對合理的,甚至是金標準。如果,審批業務員自己的決定就是稀里糊塗的,或者是非常容易被改進的,那麼學習審批業務員決策的意義何在?第二、給定一個有規模的信貸企業,需要審批的業務量都非常大,一個或者幾個審批業務員是無法完成這麼巨大的工作。因此,審批業務常常由一個團隊來完成,少則幾十個審批業務員,多則上百個。這麼多審批業務員,他們的評價標準顯然不一致,每個人都有自己的標準,統統反映到了(1)所定義的Y上。這麼多不同的審批標準,到底哪個標準是金標準?或者更好的標準?不容易說清楚。因此,作為一個模型而言,學習到的將是所有審批業務員的平均標準。要知道,平均標準一定不是一個好標準,因為真正優秀業務員的見解,被其他審批業務員的數據給平均掉了。不禁要問:學習這樣一個平均的審批標準,而不是最優秀審批標準的意義何在?

當然,作為一個學術競賽項目,畢竟就是練練而已,並不是真正的業務實踐。但是,如果把(1)帶到真實的業務實踐,那就可能是非常危險的。真正的業務實踐可千萬要記得選擇(2),而不是(1)。

﹏﹏﹏﹏

再看一個例子。有一次上課,我請同學們根據自己的興趣愛好,定義一個0-1回歸分析問題,也就是Y的數據類型是0-1型數據。有一個同學是足球迷,提出了這麼一個問題。給定咱們國家甲A聯賽所有球員,本賽季的所有信息(例如:年齡、位置、上場次數、進球數、越位數等),能否對每一個球員給一個預測性判斷:他是否應該入選國家隊。我覺得這是一個非常有趣的問題。首先,體育大數據,尤其是足球大數據,在咱們國家還屬於起步階段,備受關注。其次,這個問題很有趣,如果我能有一個模型,對一個球員是否應該進入國家隊,做出一個量化的判斷,也許對國家隊教練組有一定參考意義。但是,我不清楚應該怎麼做。這個業務問題的X非常容易定義,就是該球員最近一個賽季的所有信息。但是,Y應該是什麼?咱們的同學說:Y就是這個隊員,最近12個月,是否進過國家隊。你看這個Y定義得如何?有沒有覺得哪裡不對勁?

如果我是主教練,我決定是否選用一個隊員進入國家隊的主要考慮是:提高球隊的整體戰鬥力。如果,我們能有一個Y,刻畫該球員,進入國家隊後的「戰鬥力」,這就完美了。但是,顯然不存在這樣的Y。因此,只能退而求其次。但這並不能說明,最近12個月是否進入過國家隊是一個合理的替代品。這樣定義的Y,背後有一個隱含的假設,過去12個月所產生的國家隊隊員錄用情況應該是非常合理的。這個假設顯然有問題。如果過去12個月國家隊的戰績並不理想,甚至很糟糕怎麼辦?如果是這樣,說明過去12個月的國家隊構成是有問題的。因此,過去12個月是否進入國家隊,並不能構成對未來的建設性意見。這裡的問題出在哪裡?這裡的問題是:咱們所定義的Y(過去12個月是否被國家隊錄取過),並沒有瞄準真實的業務目標(提高戰鬥力)。

5瞄準原因而不是結果

在定義Y的過程中,人們很容易犯的另外一個錯誤就是混淆了原因和結果。數據分析的最終目標是創造價值,創造價值依賴具體的業務場景,而業務因變數Y就應該對準業務場景中的核心價值。人們希望通過回歸分析的結果,改進Y的預期。通過改進Y,進而改善業務。因此,Y應該是業務的原因,而不是結果。

看一個具體案例。有一個大型購物中心(例如:華聯、金源、萬達),要蓋一個新的購物中心,希望嘗試一些新的,更好的設計理念。最終目標是讓購物中心變得更「好」。對,這就是業務問題。請問:到底什麼叫做「好」?為此,跟業務團隊有不少溝通交流,進而瞭解到該購物中心的主要收入來自兩個方面:(1)入駐商家的租金;(2)入駐商家的銷售收入分成。接下來,如何定義Y?如果僅僅從收入的角度看,(1)是一個非常合理的Y,因為這是收入中最重要的部分。但是,我想告訴你,這個Y很糟糕。為什麼?粗淺地看,這個租金Y似乎是購物中心自己定的。也就是說,購物中心作為業主,對自己所有的商鋪資源,有定價權。我想定什麼樣的租金Y,就定什麼樣的租金Y,那還有什麼好分析的?

聰明的你也許會說:不對!購物中心可以任意定價,但是市場不一定買單。如果定價過低,一定很多商鋪排隊入駐。如果定價過高,那就無人問津,租不出去。因此,最終的租金應該是一個市場供求雙方博弈的結果。這麼說很有道理!可以繼續追問:在市場買賣雙方的博弈過程中,什麼樣的商鋪租金可以更高?什麼樣的更低呢?樸素的業務經驗告訴我們,人流量大的商鋪,租金就應該更高,否則就更低。什麼樣的地方流量大?扶梯旁邊、中庭附近、動線樞紐!由此可見,商鋪的租金收入是一個結果,是一個市場博弈的結果,而不是原因。推動這個結果最根本的原因是:客流量。因此,一個更加準確的Y,一個瞄準原因的Y應該是客流量。通過對各個店鋪客流量的回歸分析,可以理解:扶梯如何影響客流量,中庭如何影響客流量,動線設計如何影響客流量等等。在這樣的見解支持下,纔可能評價未來的新設計,是否更「好」。

﹏﹏﹏﹏

再考慮一個物聯網的案例。假設有一個重大設備(例如:發射塔、生產線、鍋爐),需要常年穩定運行。一旦出現故障,就需要停車重啟,帶來不小的生產損失。因此,設備管理人員非常希望通過數據分析,理解背後的原因,改善設備運營維護的規範,進而降低設備故障的次數。這就是業務問題。請問:這裡的Y是什麼?大量的相關企業會把Y定義成為該設備故障的具體時間,希望通過對故障時間的準確預測,提前預警,做好相應的運營或者維護的準備。這個思路怎樣?事實證明,該思路實際效果非常差。為什麼?因為該設備非常重要,因此故障次數很少。一年到頭也不會有幾次故障,故障相關的觀測數據非常少。而如此少的數據量所產生的模型預測精度一定是令人失望的。請問接下來怎麼辦?同工程師的深入溝通發現,該設備故障的主要原因是某些元器件老化,造成關鍵部件電流過大,形成了持續的高強度工作壓力。只有在這樣的高電流壓力下,設備纔有故障的可能。但是,這並不是說電流只要大了設備就要故障。因為關鍵部件的抗壓能力很強,它們會在高電流的情況下正常運行很長時間,直到最後階段,才會隨機地失效。所以,高電流是產生故障的必要原因,雖然不充分。因此,只要能夠有效監控電流,就可以有效避免設備故障。請注意,避免設備故障纔是這個業務的真正需求,而不是預測故障時間。最後,整個項目組終於對這個業務問題的理解達成了高度一致,最後確定的Y是:關鍵部件的電流量,而不是設備的故障時間。因為:電流量纔是業務問題的原因所在!


推薦閱讀:
查看原文 >>
相關文章