選自arXiv,作者:Sam Wiseman、Stuart M.Shieber、Alexander M.Rush ,機器之心編譯。

雖然神經編碼器-解碼器模型在文本生成方面取得了很大的成功,但這種生成方式仍存在一些尚未解決的問題。而本文提出了一種使用隱藏的半馬爾可夫模型(HSMM)解碼器的神經生成系統,可以學習潛在的離散模板並生成。

隨著編碼器-解碼器模型在機器翻譯及其相關任務中不斷取得成功,人們對用該模型構建數據驅動的通用自然語言生成(NLG)系統 (Mei et al., 2016; Dusek and Jurc?cek ˇ , 2016; Lebret et al., 2016; Chisholm et al., 2017; Wiseman et al., 2017) 的興趣大增。這些編碼器-解碼器模型 (Sutskever et al., 2014; Cho et al., 2014; Bahdanau et al., 2015) 使用神經編碼器模型來表示源知識庫,並以源編碼為條件,用解碼器模型逐字進行文本描述。這種生成方式與 NLG 中更為傳統的分工方式形成了鮮明對比,NLG 著重強調分別解決「說什麼」和「如何說」這兩個問題,又因此形成了具有明確內容選擇、宏觀和微觀計劃、表面實現組件的系統。

編碼器-解碼器生成系統可以提高 NLG 輸出的流暢性,同時減少所需的手動操作。然而,由於通用編碼器-解碼器模型的黑箱特性,這些系統在很大程度上犧牲了兩個在更傳統系統中常見的重要需求,即(a)在形式和內容上易於控制的(b)可解釋輸出。

本研究考慮構建可解釋和可控的神經生成系統,並提出了具體的第一步:建立一種數據驅動的新生成模型,以學習條件文本生成的離散、模版式結構。核心系統使用一種新穎的神經隱藏半馬爾可夫模型(HSMM)解碼器,它為模板式文本生成提供了一種原則性方法。研究人員進一步描述了通過反向傳播推導以完全數據驅動的方式訓練該模型的有效方法。由神經 HSMM 引起的模版式結構生成明確表示了「系統打算說什麼」(以學習到的模板形式)以及「它想如何說」(以實例化模板的形式)。

研究人員可以實現與其它神經 NLG 方法媲美的性能,同時滿足上述兩個需求。實驗表明,可以在產生顯式模板(如圖 1 所示)的同時獲得有競爭力的自動分數,並且可以通過操縱這些模板來控制和解釋生成。最後,雖然實驗側重於從數據到文本的形式,但該方法代表了一種學習條件文本的離散、潛變數表示的方法。

圖 1:E2E 生成數據集 (Novikova et al., 2017) 中的模版式生成示例。知識庫 x(上)包含 6 條記錄,y?(中)是系統生成; 記錄顯示為 [value] 類型。系統會學習生成的神經模板(下)並將其用於生成 y?。每個單元格代表學習段中的一個片段,「空白」表示在生成期間通過複製產生的填空位置。

論文:Learning Neural Templates for Text Generation

論文鏈接:arxiv.org/pdf/1808.1012

摘要:雖然神經編碼器-解碼器模型在文本生成方面取得了很大的成功,但這種生成方式仍存在一些尚未解決的問題。編碼器-解碼器模型在很大程度上無法解釋文本,並且難以控制其措辭或內容。本文提出了一種使用隱藏的半馬爾可夫模型(HSMM)解碼器的神經生成系統,它學習潛在的、離散的模板並生成。我們展示了該模型學習有用模板的能力,並且這些模板讓生成變得更具解釋性和可控性。

圖 3:通過 HSMM 因子圖(在已知的分段下)來說明參數。這裡我們假設 z1 處於「紅色」狀態(K 個可能性中的一種),並且在發出三個單詞後變為「藍色」狀態。如 T 所示的轉換模型是兩個狀態和神經編碼源 x 的函數。發射模型是「紅色」RNN 模型(注意力超過 x)的函數,產生單詞 1、2 和 3。轉換後,下一個單詞 y4 由「藍色」RNN 生成,且獨立於之前的詞。

表 1:Dusek 和 Jurc?cek ˇ(2016)系統對比,後者構成了 E2E challenge 基線、基於替代的非參數基線(見文本),以及我們在 E2E 數據集上用於驗證和測試的 HSMM 模型(非自回歸和自回歸版本分別表示為「NTemp」和「NTemp + AR」)。「ROUGE」是 ROUGE-L。模型通過官方 E2E NLG Challenge 評分腳本來評估。

表 3:改變模板 z(i)對 E2E 驗證數據中單個 x 的影響;使用所選 z(i)的分段來注釋生成。使用表 1 中的 NTemp + AR 模型獲得結果。


推薦閱讀:
相關文章