推薦石器時代「前推薦時代」,人工運營、熱門排序、機器學習排序都能夠在產品初期為產品積累數據,為後期個性化打下基礎;產品前期沒有「積累用戶數據」的時候,採取這種基於熱度和內容的推薦演算法也是常見的手段,但是這一類做法還是沒有很好地解決一些一直以來的問題,比如「馬太效應」,如果是資訊類的產品,馬太效應也就是一定程度上的「輿論引導」。本文將結合馬太效應及初期的一些方法緩解此類問題。

「前期不可避免」,後期加入「個性化演算法」

2.2馬太效應

▏2.2.1有者愈有,強者愈強

熱門商品越熱門,新商品很難發現。採取這種演算法,很容易會引起馬太效應,比如說某個商品在初期獲取了流量後,或者商家有刷單的情況,排序依據此類數據,就會長期對用戶產生誤導。B2C電商平臺的綜合排序,就會尤為重要,即「綜合排序」能夠一定程度上減小馬太效應的影響。

▏2.2.2隨機因子

1)「補償不利位置」商品 -隨機

a.通過引入「隨機因子」,在熱門排序中考慮一定的比例插入全新的商品或者排序靠後的新商品,比如每10個商品中有1-2個位置可以插入。

b.「直接降權」,也屬於補償機制的一種。對排名「位置靠前」的商品「定期降權」,如對前兩頁的圖文信息每隔幾個小時降權至原來的30%,位置靠後的商品有機會晉陞。其中需要考慮「時間效應」,引入「半衰期」的概念。

上述方法簡單、易實現,可以一定程度上快速讓不利位置的商品可以獲取到一定數量的曝光,這樣可以讓這部分商品積累數據,如果是潛力商品就有機會開始上浮。當然可以晉陞的商品都是需要經過「審核」,晉陞商品的質量需要有一定「保障」

2.3.2繼承下的清零嘗試

利用文本及文本標籤演算法,找到相似的老商品作為參考。此類方法是通過「文本演算法」方式,「建立」條目之間的「相似性」,新商品的「得分預測」(補償),解決商品更新的問題。如發布一天內的商品,缺乏足夠的原始數據計算得分,通過機器學習來預測得分; 通過計算「新商品信息與老商品信息的相似度」,預測新商品信息可能的得分值。預測結果具有時效性,因為是預測,得分有時效性,預測得分「生效一天」後需按照「實際得分排序」

比如a商品最相似的k個商品中,選取聚類中得分最高(平均)的商品得分(轉化率、點擊率、銷量等),按照它的得分以及新商品與它的距離(文本相似度)對新商品排序,最終插入原有排序列表,指定為某rank位置的得分。

注: 分頁內「隨機排序」,同一頁內的商品排序也「不受得分的限制」也是一類辦法。

2.3繼承與清零

2.3.1更短的時間窗口

馬太效應中「時間」是一個非常重要的因子,往往馬太效應中越長的時間越容易積累更多的曝光,只要確定一個合適的時間窗口,就可以在窗口內進行合理的控制,加之以上述的若干方法來緩解馬太效應。後續文章會介紹「MAB演算法」,這類演算法用來控制和「最大化流量價值」

2.3.2賽馬

所謂「賽馬機制」,在相同平臺的條件下通過給予各類商品「公平的曝光機會」公平的曝光機會,然後通過「若干指標考察商品能力」。賽馬就是根據商品的實時表現進行資源分配,表現好的商品能夠獲得更多的資源展示。

賽馬的好處是什麼?平臺可以建立一個良性生態系統,商家之間合理地開展競爭,為用戶帶來更優質的體驗。對於商家來說,賽馬相較於原有的提報方式「覆蓋面更廣」,可以讓更多商家「免費參與並獲取」大促期間的「活動流量」;二是商家可以發揮「自主能動性」,通過提升對應的考覈指標來為自己爭取更多資源位及流量。

賽馬機制綜合考察產品的「蓄客能力」「綜合的表現力」,根據這個來確定在商品的排名,而且這個排名是不斷變化的,預熱期的賽馬機制分為3個階段。

為保證流量利用效率,體現公平公正,常見的賽馬機制是按小時/天賽馬,以單品點擊、轉化、成交金額賽馬;當然在活動和某些選品頻道,分為主會場和分會場;表現優異的外場打標商家及商品將有機會晉級分會場「新發現」樓層中展示分會場到主會場間會有賽馬晉級機制;當然也會有一些專門獨立地頻道來作為過渡來承接這些商品;前一個時間窗口的表現確定後一時間段的展示排序。

如果想避免馬太效應,業界也有一些實踐成果,最著名的包括Reddit,Hacker News的Ranking演算法等,主要從時間和負反饋出發,感興趣的可以自行深入瞭解。從分發演算法解決只是一方面,更關鍵的問題時解決「內容更新」「快」「內容」「全」,然後藉助後面介紹的「個性化推薦演算法來將分發效率提升」

▎對推薦、搜索、廣告和用戶感興趣的小夥伴可以閱讀下面的文章匯總

姚凱飛:推薦&搜索&廣告&用戶畫像&深度學習整理?

zhuanlan.zhihu.com
圖標

下一篇文章,敬請期待:

【五.推薦青銅時代-1】關聯與個性化

推薦閱讀:

相關文章