准确地说这个时代,不能称之为推荐系统的时代,这一个时代未能给每个用户构建属于他的推荐结果,没有很好地解决个性化长尾问题,所以这个可以叫「前推荐时代」

这一阶段推荐系统特点:

1). 推荐「功能简单」「全局推荐」「没有个性化」

2). 召回 & 排序逻辑都集中在离线,「推荐服务逻辑较轻」,只负责一些数据「去重」和数据「渲染」等功能。

3). 推荐召回 & 排序策略主要由「人工或人工制定策略」来定,当然也开始有「机器学习」介入其中。

1.1人工选品排序及运营

1.1.1人工排序

「早期」的推荐产品,主要靠平台「运营人员」依靠业务知识进行「手工配置」,策略投放也是基于场景相关性的「固定位置展示」; 这一阶段主要出现在产品或场景构建初期,这时候条目量较小,主要是运营进行条目的筛选与选取。根据这些商品的点击、转化、订单数据进行排序,这时候往往此场景只有一份条目排序,用户访问此场景时,将会「「千人一面」」地展示这些商品;当然也会从业务角度选取「重要且区分性较大」的维度,穷举并构建若干列表;举个例子,比如不同地区,不同性别需求会有差异,比如「印度人和中国人」「男性和女性」对于商品、资讯等条目的需求都会有很大的差异。

人工排序,由运营手动调整商品的排序,当「SKU少」的时候,小百个的情况下,人工运营不算繁重,但是一旦商品量起来,有几万商品时候,「工作量」可想而知。

1.1.2实时热点

当然人工推荐和干预也不是一定存在弊端,在未来的很长时间都会继续存在,因为某些「突发性」的事件和「时事热点」在没有好的舆情监控体系下(如果有,可以借助此来做推荐),还是需要人工干预,因为热点带来的推荐效果也是很高的;比如「世界杯、奥运会、时政要点」「黑天鹅事件」,需要人工加入推荐列表。

1.2自然排名

1.2.1热快全

自然排名最主要依赖三点:「热、快、全」,「先做热、后做快、再做全」。其中热指的是通过某几个维度选取并排序,快主要是考虑时间因子,全指的是个性化,这里主要著重介绍热。

那如何做「热门推荐」呢?就热门推荐简单的方式,可生成多维度的热门数据,热门数据有各种排行榜,比如点击的排行榜,购买排行榜等。当客户需要热门推荐的场景时可把热门推荐生成的结果直接返回给客户。另一方面,热门推荐也可以捕捉一些场景,比如处理冷启动。热门推荐的结果通常有一定理论依据,比如按购买、销量排序其实也是很多人容易接受的方式,在这部分也可以夹杂人工编辑的分析。

1.2.2举个例子

比如B2C电商,先根据「用户点击率、页面停留时间、购买次数」综合考虑排序,要让大部分用户喜欢的产品排在前,但是「"一千个读者心中有一千个哈姆雷特"」,不可能有一个让每个人满意的排序。大部分品类默认最佳的排序,应该是一个考虑了销量、库存深宽度、新品、价格区间等若干个因素的权重,最后进行综合演算法的排序。当然也有电商会将多种常见商品排序枚举给用户,把选择权交给用户,比如「销量、新品、价格、人工」等。

「按销量」:对某个时间窗口内(近一个月、近一周等)卖得好的商品,这里会让新品几乎没有任何机会得到展示,马太效应较强。

「按新品」:按商品上新的时间排序(按上架时间)。

「按价格」:用户的购买力差异大,所以每个人对价格有不同的诉求,按价格排序。

「其他维度」(评论,收藏等):其它相关产品诉求。

▏1.2.3时间

前期产品冷启动,没有足够的数据积累,热门排序以「时间+人工运营」结合排序,即新上架的排在前,随著中期数据积累及产品健全,再考虑其它因子影响排序。

▏1.2.4综合指数

人气排序(按综合指数)则多维度考虑影响因子,「前期按时间顺序积累一定数据后」「中期用户喜欢的产品」(即转化率高的产品排在前面,转化率高相当于详情页内评论、商品属性等信息对用户有吸引力), 后期在物料(如商品)数量积累到一定程度,在「兼顾用户体验」的基础上,可以考虑「毛利率」,用户在信任该平台的时候,就可以推出「转化率+毛利率高」的产品,默认排序是转化好及毛利率高的商品排在前面,。

继续以电商为例,下面介绍相关的排序因子,未来也会在个性化推荐中发挥重要的作用。影响商品综合排序的因素有:单位时间的转化率、点击率、成交量、好评率、收藏量、退货率、上下架、单位时间的销量排名、复购率、页面停留时间、浏览量、SKU的齐全率、收藏排名、活动类型(满减/满返/折扣)、库存等,根据结合自己的平台列出影响商品排序的因素,前期可以酌情选择部分;也会给所有因子的影响权重比例给他一个系数,并将上述若干因子按照权重比例系数进行融合

比如单位时间的转化率为a,复购率为b,好评率为c,点击率为d,SKU的齐全率为e、加购率为f,排序公式可能为「a(1-b)(0.5c+0.1d+0.03e+0.2f)」,这里只是举例,可能会有指数的权重影响排序,关键是每个排序因子的影响力,不同的影响力体现在排序公式中就是权重及计算方式(乘法、指数使重要的因子权重变高),针对「人群去制定不同的排序规则,可以针对不同群里的排序不一样」。将所有排序因子分成两类:升权项和降权项,升降权除了要考虑质量优劣的维度,也要考虑马太效应。

其中会对权重的大小如何更合适,一般在「线上或测试环境」(真实数据)中跑一跑,并且有运营团队+采购团队参与「评测、赋予权值」,并不断调整,如果条件允许(有埋点及数据收集)也会看看真实的用户反馈数据,看看排序结果是否符合,不符合的话通过调整系数,也就是权重来进行优化。

1.3机器学习预估条目转化排序

这一阶段主要是通过「打点数据」,收集每个条目的曝光、点击、加购、购买等,设定点击率、转化率等目标,通过「构建特征」「训练模型」,产出一份条目排序列表,并且训练过程也通常通过「单机」完成。特征往往也包括了我们上面介绍的若干排序因子,比如商品近7天的曝光数、点击数、平均点击率、转化率、退货率等。

诞生之初的推荐系统虽然非常简陋,但是在设计之初,就预留好人工调整商品特征权重的功能,产品同学可以快速的调整推荐排序策略来达到「人工智慧」的效果,前期也能较好的满足业务需求。

▎对推荐、搜索、广告和用户感兴趣的小伙伴可以阅读下面的文章汇总

姚凯飞:推荐&搜索&广告&用户画像&深度学习整理?

zhuanlan.zhihu.com
图标

下一篇文章,敬请期待:

【四.推荐石器时代-2】自然排序与马太效应


推荐阅读:
相关文章