模型一个事情,一直觉得是个玄学,其实建模人很重要,对业务的理解深度决定了模型的好坏。因子参数的比例、模型演算法的选择、业务细节的观察等等都是能够决定模型好坏的重要环节。

预测模型里面,ctr预估,用户预估模型等等都是预测模型,只是主题不同而已。但是用户预估是基础的基础,有了用户预估,才会有转化。经常老板会问你,今年这个推广产品有xx用户,明年会有多少用户呢?相信年终了,大家没有被少问这个问题。特别是对一个成熟的产品来说,新用户的增长,流失用户的减少,回流用户的规模,口碑传播都是会对用户预估有重要影响,而成熟产品的用户成分复杂,流失与否波动性较大,更容易给预测模型带来误差。

一、模型假设

每日新增用户 Px,从计算之日起,新登陆用户为P0, 计算第二天为P1,推广第x天为Px-1。

假设:忽略新用户的成分,同时也简化老用户的成分。

为了明确模型要细化的方向,明确一下忽略的因子,新用户的成分,新用户的来源(即归因,如口碑流量、kol宣传、活动导入、广告获取等),老用户里面也是忽略了对潜在、活跃、付费用户、留存等成分的划分。

需要说明的是,在现实推广中,用户成分的影响会很大,如通过百度品牌搜索进入的用户的留存会比付费流量引流来的用户留存大很多,在用户成分组成不稳定的条件下,做人数预测的误差会很大。如果想做的精准,可对不用来源的用户留存做单独的预测。

沉淀用户Cx

假设:不考虑沉淀用户回流的情况。

沉淀用户可理解为核心用户,这部分已经过了留存极速下降的阶段,留存与否收到改革的影响较小,

沉淀用户的流失率可以用一个普适的流失系数a 来表示,一般来说沉淀用户的流失系数都是非常小的,一般来说沉淀周期为90天。

留存用户Gx

留存用户理论上会有时间上的差别,留存用户是有第一日新登用户到本日留存数+第二日新登用户到本日留存数+第x日新登用户到本日留存数组成。

注:留存用户划分和沉淀用户不是一个类别,留存是没有按照一个定制系数递减的,如果划分到一起,对建模的结果产生巨大的误差。

总用户数Sx=Px+Cx+Gx,x 等于天数。

二、模型构建

1、新用户中的留存用户Gx的计算方式:

留存和时间关联度很高,但是在时间范围上,我们一般会观测1,7,30的留存,定义第N天进入游戏的用户在第X天的留存人数为Pn*f(x-n)

其中,f(x)为留存率预测函数,可使用最小二乘法用过1,7,30留存求的,f(x)为对数函数。

第x天留存用户总数:

2、沉淀用户Cx的计算方法:

由于我的假设都是90天之后的忠诚用户,留存用户在90天之后变成为沉淀用户,则沉淀用户在70+y天后的留存为Pn*f(90)*a^y。在历史的沉淀用户中,会有一个留存系数a,如果在后续的预估中存在较大的变动,但对于忠诚用户的改革的评估是正向的,则a的影响不大,若改变对忠诚用户的改革评估是负向的,则a的因子上调,一般来说a在0-0.5左右。

令c=f(90),x=90+y,则沉淀用户计算公式为:

3、总用户数Sx

三、模型检验

利用原始数据做数据拟合,

一般来说模型检验,利用前3年的数据验证今年的用户规模。数据来源做了扩大不为真实数据。

1、留存拟合。

用真实的留存做拟合,留存拟合是对数函数,使用回归分析可获得留存的对数函数f(x)。

2、数据拟合

历史数据拟合,以时间维度把今年数据以及预测模型中的数据做对比,查看数据拟合度。

3、模型纠错

数据拟合中肯定会出现偏差,偏差几种情形吧。一种是在一开始出现了一定比例的偏差,这种偏差其实还好,一般是系数问题;一种是在一个时期之后,拟合度出现了偏差,这种就需要纠错了;

一般来说纠错,要改一下函数选择,预测模型具小经验判断,对数函数改幂函数试试。

四、模型分析

预测模型分析出来了,最终的落地的数据。有了数据之后,在明年的预算以及计划上有了一定的心理预期。

另外预测模型在一个新发项目上评估后期的效果会有至关重要的作用。

推荐阅读:

查看原文 >>
相关文章