模型一個事情,一直覺得是個玄學,其實建模人很重要,對業務的理解深度決定了模型的好壞。因子參數的比例、模型演算法的選擇、業務細節的觀察等等都是能夠決定模型好壞的重要環節。

預測模型裡面,ctr預估,用戶預估模型等等都是預測模型,只是主題不同而已。但是用戶預估是基礎的基礎,有了用戶預估,才會有轉化。經常老闆會問你,今年這個推廣產品有xx用戶,明年會有多少用戶呢?相信年終了,大家沒有被少問這個問題。特別是對一個成熟的產品來說,新用戶的增長,流失用戶的減少,迴流用戶的規模,口碑傳播都是會對用戶預估有重要影響,而成熟產品的用戶成分複雜,流失與否波動性較大,更容易給預測模型帶來誤差。

一、模型假設

每日新增用戶 Px,從計算之日起,新登陸用戶為P0, 計算第二天為P1,推廣第x天為Px-1。

假設:忽略新用戶的成分,同時也簡化老用戶的成分。

為了明確模型要細化的方向,明確一下忽略的因子,新用戶的成分,新用戶的來源(即歸因,如口碑流量、kol宣傳、活動導入、廣告獲取等),老用戶裡面也是忽略了對潛在、活躍、付費用戶、留存等成分的劃分。

需要說明的是,在現實推廣中,用戶成分的影響會很大,如通過百度品牌搜索進入的用戶的留存會比付費流量引流來的用戶留存大很多,在用戶成分組成不穩定的條件下,做人數預測的誤差會很大。如果想做的精準,可對不用來源的用戶留存做單獨的預測。

沉澱用戶Cx

假設:不考慮沉澱用戶迴流的情況。

沉澱用戶可理解為核心用戶,這部分已經過了留存極速下降的階段,留存與否收到改革的影響較小,

沉澱用戶的流失率可以用一個普適的流失係數a 來表示,一般來說沉澱用戶的流失係數都是非常小的,一般來說沉澱週期為90天。

留存用戶Gx

留存用戶理論上會有時間上的差別,留存用戶是有第一日新登用戶到本日留存數+第二日新登用戶到本日留存數+第x日新登用戶到本日留存數組成。

註:留存用戶劃分和沉澱用戶不是一個類別,留存是沒有按照一個定製係數遞減的,如果劃分到一起,對建模的結果產生巨大的誤差。

總用戶數Sx=Px+Cx+Gx,x 等於天數。

二、模型構建

1、新用戶中的留存用戶Gx的計算方式:

留存和時間關聯度很高,但是在時間範圍上,我們一般會觀測1,7,30的留存,定義第N天進入遊戲的用戶在第X天的留存人數為Pn*f(x-n)

其中,f(x)為留存率預測函數,可使用最小二乘法用過1,7,30留存求的,f(x)為對數函數。

第x天留存用戶總數:

2、沉澱用戶Cx的計算方法:

由於我的假設都是90天之後的忠誠用戶,留存用戶在90天之後變成為沉澱用戶,則沉澱用戶在70+y天后的留存為Pn*f(90)*a^y。在歷史的沉澱用戶中,會有一個留存係數a,如果在後續的預估中存在較大的變動,但對於忠誠用戶的改革的評估是正向的,則a的影響不大,若改變對忠誠用戶的改革評估是負向的,則a的因子上調,一般來說a在0-0.5左右。

令c=f(90),x=90+y,則沉澱用戶計算公式為:

3、總用戶數Sx

三、模型檢驗

利用原始數據做數據擬合,

一般來說模型檢驗,利用前3年的數據驗證今年的用戶規模。數據來源做了擴大不為真實數據。

1、留存擬合。

用真實的留存做擬合,留存擬合是對數函數,使用回歸分析可獲得留存的對數函數f(x)。

2、數據擬合

歷史數據擬合,以時間維度把今年數據以及預測模型中的數據做對比,查看數據擬合度。

3、模型糾錯

數據擬閤中肯定會出現偏差,偏差幾種情形吧。一種是在一開始出現了一定比例的偏差,這種偏差其實還好,一般是係數問題;一種是在一個時期之後,擬合度出現了偏差,這種就需要糾錯了;

一般來說糾錯,要改一下函數選擇,預測模型具小經驗判斷,對數函數改冪函數試試。

四、模型分析

預測模型分析出來了,最終的落地的數據。有了數據之後,在明年的預算以及計劃上有了一定的心理預期。

另外預測模型在一個新發項目上評估後期的效果會有至關重要的作用。

推薦閱讀:

查看原文 >>
相關文章