台湾 || 语言: 大陆简体港澳繁體台灣正體

NLP中幾種句子表示方法的比較

雪花台灣 2019-06-10 01:08

最近發現了一個有趣的nlp網站：nlp-town，有很多不錯的博客文章，也有一些nlp notebook代碼。我覺得非常值得入門者看看。在本篇文章中，我們摘取了其中一篇博客《Comparing Sentence Similarity Methods》中的精華，簡單介紹一下各種句子表示方法。喜歡速食的小夥伴請直接看文末的結論。

一、句子表示及其相似度計算有哪些應用呢？

搜索引擎
基於Q-A對的對話機器人
quora
知乎重複問題識別

等等

二、常見的句子向量的表示方法有哪些？

非監督學習的句子表示

1. 句子中所有詞的向量之和的平均值

這種方法過於粗暴，改進的辦法有1）忽略stopwords 2）使用tf-idf對辭彙進行加權

2. WDM(Word Movers Distance)

如下圖所示，該相似度定義為document_1中辭彙與document_2對應辭彙的『travel』代價，這裡可以簡單理解為travel距離之和。

相关文章