論文地址:microsoft.com/en-us/res

LSA基本介紹:www1.se.cuhk.edu.hk/~se

博客解析:kishorepv.github.io/DSS

開源實現L:github.com/airalcorn2/D

基本思想:

  1. 將搜索場景中的query 和 document映射到同一個低維空間
  2. query 和docment在低維空間的相似度表徵兩者的相關度
  3. 最大化點擊document的條件概率

整體架構:

結構解析

WordHashing:letter n-gram(個人理解本文的最大亮點)

  1. 英文單詞維度是無限的,但是字母級別的n-gram是有限的,極大壓縮維度
  2. 字母n-gram 可以捕捉同一單詞的不同語態時態語境變化
  3. out-of-vocubulary 魯棒性,(前後綴,語態時態詞的相似變化)

    collision:不同單詞的letter n-gram表示一樣認為是一次碰撞

激活與損失

實驗效果

DNN:基本深度模型,L-WH :word hash laywer,linear/non-linear: 激活函數

思考:

  1. wordhash 直接降維打擊,推薦領域工業界一直在高維稀疏場景打轉,通過Lookup Embedding 降維的方式已經是基本方案,缺少一種直觀有先驗的降維Embedding
  2. 工業界論文特點:簡單實用,拿來可用, 學術界論文特點:模型高大上,調出效果看運氣
  3. 多多關注谷歌,微軟,facebook,Linkin,retio、airbnb,hulu等工業界大廠精廠特色論文
  4. 最近踩坑範圍不斷加大,感覺不同領域變種再多,萬變不離其宗,越發感覺沒有突變出來的想法,都是量變到質變

推薦閱讀:

相关文章