最近發現了一個有趣的nlp網站:nlp-town,有很多不錯的博客文章,也有一些nlp notebook代碼。我覺得非常值得入門者看看。在本篇文章中,我們摘取了其中一篇博客《Comparing Sentence Similarity Methods》中的精華,簡單介紹一下各種句子表示方法。喜歡速食的小夥伴請直接看文末的結論。
一、句子表示及其相似度計算有哪些應用呢?
- 搜索引擎
- 基於Q-A對的對話機器人
- quora知乎重複問題識別
等等
二、常見的句子向量的表示方法有哪些?
非監督學習的句子表示
1. 句子中所有詞的向量之和的平均值
- 這種方法過於粗暴,改進的辦法有1)忽略stopwords 2)使用tf-idf對辭彙進行加權
2. WDM(Word Movers Distance)
如下圖所示,該相似度定義為document_1中辭彙與document_2對應辭彙的『travel』代價,這裡可以簡單理解為travel距離之和。