CMU NLP公開課筆記（六）——Conditioned Language Model

本節課程主要介紹了encoder-decoder模型的相關知識內容，最後還講了模型融合的知識，這部分不算是NLP裡面的知識內容，機器學習工程實踐中都會使用到，因此不會詳細描述，後續會單獨開坑。

Conditioned Language Model

傳統的Language Model可以看成是一種生成式模型，它處理的對象是文本。它的目標是計算一個文本句子的概率，也可以轉化為一個條件概率問題，即給定前文的情況下，預測下一個詞的概率問題： $P(X) = prod_{i=1}^{n}P(x_i|x_{1},...,x_{i-1})\$

而本次介紹的Conditioned language model則是在該模型基礎上，增加了給定條件，即我要求next word的條件概率，除了前面的詞的信息外，還有其他的上下文信息，可以用如下公式表示：

$P(Y|X) = prod_{j=1}^{n}P(y_j|X,y_{1},...,y_{j-1})\$

其中，X表示新增的上下文。這個X可以是其他語素信息，也可以是通過其他序列模型編碼的信息。

根據X和Y的不同，處理的NLP任務也不同。

舉例：X和Y分別為兩門不同的語種，則此時該Conditioned language model可以用於做machine translation；若X為一篇文檔，而Y表示短語或者短句，則此時相當於是做文本摘要任務；若X為結構化數據，而Y是一個自然語言的描述，則該任務為文本生成。

Encoder-decoder模型

下面介紹一個經典的Conditioned language model：encoder-decoder模型。該模型的基本思想很簡單，即假設當前我們的目標是計算句子Y的概率，此時使用一個RNN的language model對一個另一個相關句子X進行訓練得到一個編碼結果H，然後使用另外一個RNN的language model接受Y和H進行訓練，即將H的信息解碼用於訓練得到我的目標結果。具體的模型結構如圖：