0 引言

在NLP業務中有這麼一種場景:給出一個提問句子從候選句子中選出最佳的答案。就如以下樣例所示:

Who established the Nobel Prize?

1. The Nobel Prize was established more than 100 years ago.

2. The Fields Medal, established in 1936, is often described as the Nobel Prize of mathematics.

3. The Nobel Prize was established in the will of Alfred Nobel.

在上面例子中有一個提問,後面對應了3個候選回答,很明顯第3個候選句子為最佳的回答。我們可以把這類問題理解成一個排序問題。假設我們已經有了模型 h_{	heta} 來對數據集進行學習,那麼怎麼組織學習學習方式呢?這就涉及了本文的主題:pointwise、pairwise、listwise。

1 Pointwise

在pointwise中把排序問題當成一個二分類問題,訓練的樣本被組織成為一個三元組 (q_{i},c_{i,j},y_{i,j}) 。其中 q_{i} 為數據集中的一條提問句(如:Who established the Nobel Prize? );

c_{i,j}c 取candidate之意)為 q_{i} 對應的一個候選答案,正如樣例中的3個候選句子中的一個; y_{i,j} 為一個二進位值,表明 c_{i,j} 是否為 q_{i} 正確回答。我們就可以訓練一個二分類網路: h_{	heta}(q_{i},c_{i,j})
ightarrow y_{i,j} ,其中 0 leq y_{i,j} leq 1

結合樣例中網路的輸入為:Who established the Nobel Prize? 和 1.The Nobel Prize was established more than 100 years ago.

輸出為0,因為第一句回答不正確的候選句子。訓練的目標就為最小化數據集中所有問題和候選句子對的交叉熵。

在預測階段,二分類模型 h_{	heta} 被用來排序每一個候選句子,選取最top-ranked的句子作為正確回答,即 argmax_{cij}h_{θ}(q_i, c_{ij})q_i 的最佳回答。

2 Pairwise

在pairwise方法中排序模型 h_	heta 讓正確的回答的得分明顯高於錯誤的候選回答。給一個提問,pairwise給定一對候選回答學習並預測哪一個句子才是提問的最佳回答。訓練的樣例為 (q_i, c^+_ i, c^?_i) ,其中 q_i 為提問,c^+_i 為正確的回答, c^-_i 為候選答案中一個錯誤的回答。

損失函數為合頁損失函數:

L=maxleft{ 0,m-h_	heta(q_i,c^+_i)+h_	heta(q_i,c^-_i)
ight}

其中 m 為邊界閥值。如果 h_θ(q_i, c^+ _i)?h_θ(q_i, c^?_i) < m 損失函數 L 大於0,當滿足這個不等式的時候,意味著模型把非正確的回答排在正確答案的上面;如果 L 等於0,模型把正確的回答排在非正確的回答之上。用另一種方式解釋就是,如果正確的答案的得分比錯誤句子的得分之差大於 mh_θ(q_i, c^+ _i) ? h_θ(q_i, c^?_i) ≥ m ),總之合頁損失函數的目的就是促使正確答案的得分比錯誤答案的得分大於 m 。和pairwise類似,在預測階段得分最高的候選答案被當作正確的答案。

3 Listwise

pariwise和pointwise忽視了一個事實就是答案選擇就是從一系列候選句子中的預測問題。在listwise中單一訓練樣本就:提問數據和它的所有候選回答句子。在訓練過程中給定提問數據 q_i 和它的一系列候選句子 C left( c_{i1}, c_{i2}, ..., c_{im}
ight) 和標籤 Yleft( y_{i1}, y_{i2}, ..., y_{im} 
ight) ,歸一化的得分向量 S 通過如下公式計算:

                                           Score_j= h_θ(q_i, c_{ij})

S = softmax([Score_1, Score_2, ..., Score_m])

標籤的歸一化方法為:

Y=frac{Y}{sum_{m}^{j=1}{y_{ij}}}

訓練的目標可以為最小化 SY 的KL散度(對KL散度、交叉熵等資訊理論概念不理解的請移步下文參考文獻3)。

總結

雖然pointwise廣泛應用但是,但是不接近真實的排序。pairwise和listwise應用了基於候選句子排序的事實。Bian證明在TrecQA 和WikiQA數據集中listwise優於pointwise。下一篇將介紹常用模型 h_	heta 和評價指標。

References

  1. Lai T M, Bui T, Li S. A review on deep learning techniques applied to answer selection[C]//Proceedings of the 27th International Conference on Computational Linguistics. 2018: 2132-2144.
  2. Weijie Bian, Si Li, Zhao Yang, Guang Chen, and Zhiqing Lin. 2017. A compare-aggregate model with dynamic- clip attention for answer selection. In CIKM.
  3. 如何通俗的解釋交叉熵與相對熵?

推薦閱讀:

相关文章