台湾 || 语言: 大陆简体港澳繁體台灣正體

詳解 KDD2018 best paper—Embedding在Airbnb房源排序中的應用

雪花臺灣 2019-03-20 08:38

本文介紹 Airbnb 發表在 KDD 2018 的論文《Real-time Personalization using Embeddings for Search Ranking at Airbnb》。該文獲得了 KDD 2018 Applied Data Science Track 的 Best Paper，主要介紹了 Embedding 技術在 Airbnb 房源搜索排序中的應用。

Airbnb是目前全世界最大的民宿短租平臺，房主發布房源（listing）信息，而旅客可以搜索房源並預訂，房主可以選擇接受或拒絕預訂。整篇文章與Airbnb自身業務特點緊密結合，非常具有工程實踐價值，該文被評為ADS best paper也引起了不少討論和爭議，強烈推薦知乎上的2篇乾貨解讀：

@石塔西：石塔西：如何評價Airbnb的Real-time Personalization獲得2018 kdd最佳論文？
@吳海波：不一樣的論文解讀2018 KDD best paper: Embeddings at Airbnb

這2篇進行了很精彩的「宏觀」解讀，本文則從更「微觀」的視角出發，詳細介紹並探討論文中涉及的諸多工程細節，並進行了一些有趣的思考。

1. Listing Embedding

用戶在Airbnb搜索房源時，相隔時間較短的、連續點擊的房源往往是比較相似的，因此作者希望利用這些點擊信息學習房源的embedding。

從這點出發，定義用戶的點擊會話（click session）：用戶連續點擊的房源序列，且一個點擊會話中用戶連續兩次點擊行為間隔不超過30分鐘，否則就會生成一個新的點擊會話。作者將點擊會話中的點擊房源序列類比看作 NLP 中的sentence，直接使用 word2vec 的 skip-gram 模型從點擊會話中學習Listing Embedding。

max~ sum_{sin S} sum_{l_iin s} ~[ sum_{-mle j le m, ~i
e0} log~P(l_{i+j}|l_i)~], ~~~~~where~P(l_{i+j} | l_i) = frac{ exp( m{v}_{l_i}^T m{v}_{l_{i+j}}^{} ) } {sum_{ l in mathcal{L}} exp( m{v}_{l_i}^T m{v}_{l}^{} ) }

相關文章