先把 query 和 document 轉換成 BOW 向量形式,然後通過 word hashing 變換做降維得到相對低維的向量(備註:除了降維,word hashing 還可以很大程度上解決單詞形態和 OOV 對匹配效果的影響),餵給 MLP 網路,輸出層對應的低維向量就是 query 和 document 的語義向量(假定為 Q 和 D)。計算(D, Q)的 cosinesimilarity 後,用 softmax 做歸一化得到的概率值是整個模型的最終輸出,該值作為監督信號進行有監督訓練。
通過挖掘搜索點擊日誌構造 query 和對應的正負 document 樣本(實驗實際使用的是 document 的 title),輸入 DSSM 模型進行訓練。文中與 TF-IDF、BM25、WTM、LSA、PLSA 等模型進行了對比實驗,NDCG@N 指標表明,DSSM 模型在語義匹配方面效果提升明顯,當時達到了 SOTA 的水平。
這篇文章出自 Microsoft Research,是對上述 DSSM 模型的改進工作。在 DSSM 模型中,輸入層是文本的 bag-of-words 向量,丟失詞序特徵,無法捕捉前後詞的上下文信息。基於此,本文提出一種基於卷積的隱語義模型(convolutional latent semantic model, CLSM),結構如下圖所示。