自然語言處理（NLP）面試必備：pointwise 、 pairwise 、listwise

0 引言

在NLP業務中有這麼一種場景：給出一個提問句子從候選句子中選出最佳的答案。就如以下樣例所示：

Who established the Nobel Prize?
1. The Nobel Prize was established more than 100 years ago.

2. The Fields Medal, established in 1936, is often described as the Nobel Prize of mathematics.
3. The Nobel Prize was established in the will of Alfred Nobel.

在上面例子中有一個提問，後面對應了3個候選回答，很明顯第3個候選句子為最佳的回答。我們可以把這類問題理解成一個排序問題。假設我們已經有了模型 $h_{ heta}$ 來對數據集進行學習，那麼怎麼組織學習學習方式呢？這就涉及了本文的主題：pointwise、pairwise、listwise。

1 Pointwise

在pointwise中把排序問題當成一個二分類問題，訓練的樣本被組織成為一個三元組 $(q_{i},c_{i,j},y_{i,j})$ 。其中 $q_{i}$ 為數據集中的一條提問句(如：Who established the Nobel Prize? )；

$c_{i,j}$ （取candidate之意）為 $q_{i}$ 對應的一個候選答案，正如樣例中的3個候選句子中的一個； $y_{i,j}$ 為一個二進位值，表明 $c_{i,j}$ 是否為 $q_{i}$ 正確回答。我們就可以訓練一個二分類網路： $h_{ heta}(q_{i},c_{i,j}) ightarrow y_{i,j}$ ，其中 $0 leq y_{i,j} leq 1$ 。

結合樣例中網路的輸入為：Who established the Nobel Prize? 和 1.The Nobel Prize was established more than 100 years ago.

輸出為0，因為第一句回答不正確的候選句子。訓練的目標就為最小化數據集中所有問題和候選句子對的交叉熵。

在預測階段，二分類模型 $h_{ heta}$ 被用來排序每一個候選句子，選取最top-ranked的句子作為正確回答，即 $argmax_{cij}h_{θ}(q_i, c_{ij})$ 為的最佳回答。

2 Pairwise

在pairwise方法中排序模型讓正確的回答的得分明顯高於錯誤的候選回答。給一個提問，pairwise給定一對候選回答學習並預測哪一個句子才是提問的最佳回答。訓練的樣例為 ,其中為提問, 為正確的回答，為候選答案中一個錯誤的回答。

損失函數為合頁損失函數：

$L=maxleft{ 0，m-h_ heta(q_i,c^+_i)+h_ heta(q_i,c^-_i) ight}$

其中為邊界閥值。如果損失函數大於0，當滿足這個不等式的時候，意味著模型把非正確的回答排在正確答案的上面；如果等於0，模型把正確的回答排在非正確的回答之上。用另一種方式解釋就是，如果正確的答案的得分比錯誤句子的得分之差大於（）,總之合頁損失函數的目的就是促使正確答案的得分比錯誤答案的得分大於。和pairwise類似，在預測階段得分最高的候選答案被當作正確的答案。

3 Listwise

pariwise和pointwise忽視了一個事實就是答案選擇就是從一系列候選句子中的預測問題。在listwise中單一訓練樣本就：提問數據和它的所有候選回答句子。在訓練過程中給定提問數據和它的一系列候選句子 $C left( c_{i1}, c_{i2}, ..., c_{im} ight)$ 和標籤 $Yleft( y_{i1}, y_{i2}, ..., y_{im} ight)$ ,歸一化的得分向量通過如下公式計算：

$Score_j= h_θ(q_i, c_{ij})$

標籤的歸一化方法為：

$Y=frac{Y}{sum_{m}^{j=1}{y_{ij}}}$

訓練的目標可以為最小化和的KL散度(對KL散度、交叉熵等資訊理論概念不理解的請移步下文參考文獻3)。

總結

雖然pointwise廣泛應用但是，但是不接近真實的排序。pairwise和listwise應用了基於候選句子排序的事實。Bian證明在TrecQA 和WikiQA數據集中listwise優於pointwise。下一篇將介紹常用模型和評價指標。

References

Lai T M, Bui T, Li S. A review on deep learning techniques applied to answer selection[C]//Proceedings of the 27th International Conference on Computational Linguistics. 2018: 2132-2144.
Weijie Bian, Si Li, Zhao Yang, Guang Chen, and Zhiqing Lin. 2017. A compare-aggregate model with dynamic- clip attention for answer selection. In CIKM.
如何通俗的解釋交叉熵與相對熵?

自然語言處理（NLP）面試必備：pointwise 、 pairwise 、listwise

0 引言

1 Pointwise

2 Pairwise

3 Listwise

總結

References

热门新闻

周热门

自然語言處理（NLP）面試必備：pointwise 、 pairwise 、listwise

0 引言

1 Pointwise

2 Pairwise

3 Listwise

總結

References

ACL 2019將會有哪些值得關注的論文？

李世石和李昌鎬誰更厲害？

人工智慧領域裡的Interpretability和Explainability有什麼區別嗎？

人類社會都智能了！人還有何用？

如果不從事機器學習，人工智慧，大數據這塊，未來還有機會在互聯網賺錢養家嗎？本人三本院校軟體專業。？

如何看待語音識別大牛、Kaldi 之父 Daniel Povey 加入小米？會產生哪些影響？

經典Python入門書籍都是python2.x, 先學這些再轉3.x難不難？

對於未來AI的時代，你有什麼想法!？

如何評價 CVPR 2020的論文接收結果？有哪些亮點論文？

自學轉行學人工智慧怎麼樣？

nlp的word2vec中如何把英文片語向量化？

Attention模型理解？

小領域知識圖譜應該怎麼構建？

發表的論文為什麼在網上檢索不到？

比較好的醫學檢索文獻的網站？

热门新闻

周热门