BERT 等預訓練語言模型只能學習語言相關的信息,它們學習不到「知識」相關的信息。最近,清華大學與華為的研究者提出用知識圖譜增強 BERT 的預訓練效果,讓預訓練語言模型也能變得「有文化」。
選自arXiv,作者:Zhengyan Zhang等,機器之心編譯。
自然語言表徵模型最近受到非常多的關注,很多研究者將其視為 NLP 最重要的研究方向之一。例如在大規模語料庫上預訓練的 BERT,它可以從純文本中很好地捕捉豐富的語義模式,經過微調後可以持續改善不同 NLP 任務的性能。因此,我們獲取 BERT 隱藏層表徵後,可用於提升自己任務的性能。
但是,已有的預訓練語言模型很少考慮知識信息,具體而言即知識圖譜(knowledge graphs,KG),知識圖譜能夠提供豐富的結構化知識事實,以便進行更好的知識理解。簡而言之,預訓練語言模型只知道語言相關的「合理性」,它並不知道語言到底描述了什麼,裡面是不是有什麼特殊的東西。
來自清華大學的張正彥、韓旭、劉知遠、孫茂松和來自華為諾亞方舟實驗室的蔣欣、劉羣最近發布了一項研究,他們認為知識圖譜中的多信息實體(informative entity)可以作為外部知識改善語言表徵。
該研究結合大規模語料庫和知識圖譜訓練出增強版的語言表徵模型 (ERNIE),該模型可以同時充分利用辭彙、句法和知識信息。實驗結果表明 ERNIE 在多個知識驅動型任務上取得了極大改進,在其他 NLP 任務上的性能可以媲美當前最優的 BERT 模型。
論文:ERNIE: Enhanced Language Representation with Informative Entities