數據就是殺手鐧!優酷多端多場景下的視頻推薦系統探索之路 新聞 第1張

出處 | AI前線

在“推薦系統系列文章”裏,我們已經瞭解過圖文推薦系統、音頻推薦系統和一些新型的推薦系統算法。在本篇文章裏,我們將帶來視頻推薦系統的技術解析和最新的進展,為此,我們專門採訪到了優酷技術推薦算法負責人夏頡。與圖文推薦和音頻推薦不同,視頻推薦系統要考慮的元素更多,有的時候影響推薦結果的甚至是一些細微的因素。從 2017 年正式引入推薦算法到現在,優酷推薦系統到底經歷了哪些迭代與創新?對於視頻推薦系統來說,到底還有哪些可以探索的方向?本文將為你一一解答。

優酷推薦系統概況

夏頡告訴記者:“優酷是在 2017 年下半年開始進行算法化升級的。”

“剛開始是在某些重點場景實現單場景的千人千面,當我們在這些場景拿到很多不錯的收益之後,才開始逐漸在全站推廣。”夏頡說,直到去年,優酷才逐漸將單場景的推薦進行了多端、多場景上進行的融合,形成全網站一致化的推薦體驗,用戶現在在頁面上看到的推薦內容就是在這時完成的。

至於為什麼會在去年才逐漸向全站推廣,夏頡解釋說,視頻推薦系統與文字推薦系統還是有很多不同的。由於文字提取主題和標簽(tag)的方式更加容易,加之 NLP 技術發展了這麼多年,技術理論與工業實踐已經到達了相對可用的級別,所以實現起來會比較容易。

而計算機視覺領域雖然在近幾年取得了比較迅速的發展,但還是停留在比較具象的層次,比如識別屋子裡有一把椅子,或者識別桌子上有一瓶水等等。而對於畫面中的人物正在進行的活動主題——譬如“屋子裡的人正在家長裏短或者激烈爭吵”等等,推薦系統對這類主題的建模與識別還是相對來說比較困難的。

另外,夏頡補充道,用戶對文章的消費很多時候是因為文章的主題,但是對於視頻的消費是很多元化的,甚至可能是因為其中某一個很不起眼的因素所吸引。可能是因為某個場景的背景音樂,或者說主角使用的某個道具等等。所以,如何去判斷一段視頻中,哪些因素是吸引用戶的關鍵,對於視頻推薦系統來說是非常重要的。

數據就是殺手鐧!優酷多端多場景下的視頻推薦系統探索之路 新聞 第2張

“數據就是殺手鐧”

在介紹完優酷推薦系統的概況後,記者進一步向夏頡瞭解了推薦系統技術層面的內容。

依託於阿里巴巴的數據儲備,優酷擁有了大量的數據,並繪製出了更加精準的文娛知識圖譜,夏頡說,數據就是優酷推薦系統的殺手鐧。

首先,從算法上來說,夏頡表示,對於視頻推薦系統來說,最重要的是通過多模態的視頻分析和內容標簽的提取來充分理解視頻;其次,要建立一個文娛領域的知識圖譜,譬如某位男明星和女明星之間是夫妻關系,在用戶觀看這位男明星的視頻時,是否能推薦他妻子的相關視頻給用戶;另外,怎樣把知識圖譜更好地應用在推薦系統的召回和排序中,也非常重要;同時,怎樣把有聯系的用戶之間建立一個行為網絡,通過這個行為網絡更好地進行用戶之間的熟人視頻消費內容推薦,也是優酷在考慮的問題。

夏頡以用戶畫像為例進行了更詳細的介紹。在優酷的用戶羣中,有一類叫做“小嫂子”,組成這個羣體的核心成員是一些全職的家庭主婦,在進行視頻推薦的時候,更多地會為這類用戶推薦家庭倫理情感類的視頻。

對於毫無數據的新用戶,推薦算法又是如何進行精準推薦的呢?

夏頡說,這是一個非常有意思的話題,如果單獨對優酷來講,這會是一個大問題,但是現在,優酷是阿里經濟中很重要的一環,這個問題就不再是難題了。

阿里巴巴基本上覆蓋了當前大多數中國人線上線下的消費,例如某個用戶可能在大麥上買過某場演唱會的票,或者可能在淘票票上買過某部電影的票,亦或者他可能在天貓上經常購買某一類動漫的手辦等等,通過用戶在衣食住行上的偏好或消費習慣,哪怕他沒有進行內容消費,也是可以通過這些信息對他做出比較準確的推薦。

如果這個用戶甚至都不在阿里經濟覆蓋範圍之內,也有很多別的辦法可以進行畫像,比如從人口屬性判斷,用戶來自哪個城市、屬於哪個年齡層等等,根據和他相似人羣的觀看習慣,仍然可以為新用戶做一些個性化的推薦。

除了算法上的優化,在推薦方式上,優酷也是下了一番功夫的。

夏頡舉例說,在視頻封面上,優酷已經開始大規模使用個性化配圖推薦了。

夏頡告訴記者,封面個性化配圖是在 2018 年下半年的時候大規模展開的。優酷對於上百部影視作品,每部都會配有至少十張以上的封面圖,由設計進行產出,而算法會根據用戶不同的行為消費偏好,推薦他可能更感興趣的封面圖,促進用戶對內容的轉化和消費。

而對於短視頻,夏頡表示,優酷內部也有足夠的技術儲備:“我們現在能夠智能生成短視頻的封面圖,並根據用戶對短視頻的消費進行個性化分發,在線上取得了很不錯的收益。”

對於剛剛添加的新視頻,優酷也能做到實時推薦。夏頡說,這一功能的實現得益於內部的一套冷啟動算法系統,該系統能夠保證每天百萬級的短視頻,在 24 小時內冷啟動完畢,從而實現精準推薦。

除了上面提到的各種技術,近年來比較流行的強化學習、圖像學習等技術也已經在優酷內部進行實驗,或許在不久之後,用戶就能體驗到這些技術帶來的便利。

數據就是殺手鐧!優酷多端多場景下的視頻推薦系統探索之路 新聞 第3張

未來規劃

由於推薦系統技術也在不斷迭代,在採訪的最後,夏頡也談了談自己正在研究的方向和對推薦系統未來發展的一些規劃。他表示自己也在關注着很多領域的進展,希望將最新的技術應用在推薦系統中。

比如多模態視頻內容分析,它不僅可以對一些具象進行分析,還可以對一些抽象概念進行提取,就像前文中說的,可以理解某一個場景中正在發生什麼事;另外,基於圖計算的推薦系統也是夏頡正在研究的方向。

夏頡告訴記者,阿里文娛是一個覆蓋了全端全場景的娛樂消費平臺,怎麼樣在多端、多場景下做到消費體驗一致化,並盡可能的提升用戶在整個娛樂生態系統裏的消費體驗和市場,是一個需要長期不斷探索的問題。

推薦閱讀:

大規模數據處理初體驗:怎樣實現大型電商熱銷榜?

老闆總有新主意:我是怎麼拖垮一家價值十億美元大數據公司的

相关文章