本文介紹 Airbnb 發表在 KDD 2018 的論文《Real-time Personalization using Embeddings for Search Ranking at Airbnb》。該文獲得了 KDD 2018 Applied Data Science Track 的 Best Paper,主要介紹了 Embedding 技術在 Airbnb 房源搜索排序中的應用。
Airbnb是目前全世界最大的民宿短租平臺,房主發布房源(listing)信息,而旅客可以搜索房源並預訂,房主可以選擇接受或拒絕預訂。整篇文章與Airbnb自身業務特點緊密結合,非常具有工程實踐價值,該文被評為ADS best paper也引起了不少討論和爭議,強烈推薦知乎上的2篇乾貨解讀:
- @石塔西:石塔西:如何評價Airbnb的Real-time Personalization獲得2018 kdd最佳論文?
- @吳海波:不一樣的論文解讀2018 KDD best paper: Embeddings at Airbnb
這2篇進行了很精彩的「宏觀」解讀,本文則從更「微觀」的視角出發,詳細介紹並探討論文中涉及的諸多工程細節,並進行了一些有趣的思考。
1. Listing Embedding
用戶在Airbnb搜索房源時,相隔時間較短的、連續點擊的房源往往是比較相似的,因此作者希望利用這些點擊信息學習房源的embedding。
從這點出發,定義用戶的點擊會話(click session):用戶連續點擊的房源序列,且一個點擊會話中用戶連續兩次點擊行為間隔不超過30分鐘,否則就會生成一個新的點擊會話。作者將點擊會話中的點擊房源序列類比看作 NLP 中的sentence,直接使用 word2vec 的 skip-gram 模型從點擊會話中學習Listing Embedding。