機器之心編輯,參與:路、李澤南。

昨天,清華大學自然語言處理組(THUNLP)整理的機器翻譯論文閱讀清單在 GitHub 上上線了。對於元旦和寒假期間想要積累機器翻譯背景知識、追蹤前沿技術的同學來說,這份列表再合適不過了。

GitHub 鏈接:github.com/THUNLP-MT/MT

機器翻譯(MT)是藉機器之力「自動地將一種自然語言文本(源語言)翻譯成另一種自然語言文本(目標語言)」的方法。使用機器做翻譯的思想最早由 Warren Weaver 於 1949 年提出。時間進入二十一世紀,研究人員開發了基於神經網路的語言模型。近年來,神經機器翻譯已經進入了應用階段。

2018 年即將結束,在 18 年的最後一個工作日,清華大學自然語言處理組(THUNLP)整理了一份機器翻譯論文的閱讀清單奉獻給大家。

該項目的主要貢獻者 Zonghan Yang 表示:

這份閱讀清單裏回顧了統計機器翻譯(SMT)時代的亮點論文,並概括了近期神經機器翻譯(NMT)方向下的各個子領域,其中包括:模型架構、注意力機制、開放詞表問題與字元級別神經機器翻譯、訓練準則與框架、解碼機制、低資源語言翻譯、多語種機器翻譯、先驗知識融合、文檔級別機器翻譯、機器翻譯中的魯棒性、可視化與可解釋性、公正性與多樣性、機器翻譯效率問題、語音翻譯與同傳翻譯、多模態翻譯、預訓練方法、領域適配問題、質量估計、自動後處理、推導雙語詞典以及詩歌翻譯。

過去三十多年來,人們見證了機器翻譯的快速發展,尤其是數據驅動的方法,如統計機器翻譯(SMT)和神經機器翻譯(NMT),目前 NMT 佔據了這個方向的主導地位。清華大學 NLP 組表示該列表目前可能還不完整,未來將繼續增加論文並改進清單。

該論文列表接收內容可謂詳盡。首先,對於時間不夠充裕的人來說,THUNLP 為大家整理了 10 大必讀論文。這十篇論文涉及統計機器學習的數學基礎、機器翻譯度量指標 BLEU、基於短語的統計機器翻譯、Quoc V. Le 等提出的序列到序列學習方法(該方法引出了谷歌後來序列到序列(seq2seq)的 NMT 模型)、Adam 優化演算法以及 Attention 機制等。

其中最新的一篇自然是谷歌大腦那篇標題嚇人的《Attention Is All You Need》,該研究提出了目前廣泛流行的 Transformer 機器翻譯架構,詳情參見機器之心的報道:

學界 | 機器翻譯新突破:谷歌實現完全基於 attention 的翻譯架構

在這之後,THUNLP 列出了機器翻譯各細分領域的必讀論文,分為統計機器學習和神經機器翻譯兩大類,其中最新數據已經統計到了 ICLR、AAAI 2019 在投的研究。

分類目錄:

Statistical Machine Translation

  • Tutorials
  • Word-based Models
  • Phrase-based Models
  • Syntax-based Models
  • Discriminative Training
  • System Combination
  • Evaluation

統計機器翻譯部分介紹了基本的模型:基於單詞、短語、句法的 SMT 模型,以及訓練方法和評估方法。

Neural Machine Translation

  • Tutorials
  • Model Architecture
  • Attention Mechanism
  • Open Vocabulary and Character-based NMT
  • Training Objectives and Frameworks
  • Decoding
  • Low-resource Language Translation
  • Semi-supervised Methods
  • Unsupervised Methods
  • Pivot-based Methods
  • Data Augmentation Methods
  • Data Selection Methods
  • Transfer Learning & Multi-Task Learning Methods
  • Meta Learning Methods
  • Multilingual Language Translation
  • Prior Knowledge Integration
  • Word/Phrase Constraints
  • Syntactic/Semantic Constraints
  • Coverage Constraints
  • Document-level Translation
  • Robustness
  • Visualization and Interpretability
  • Fairness and Diversity
  • Efficiency
  • Speech Translation and Simultaneous Translation
  • Multi-modality
  • Pre-training
  • Domain Adaptation
  • Quality Estimation
  • Automatic Post-Editing
  • Word Translation and Bilingual Lexicon Induction
  • Poetry Translation

神經機器翻譯目前是機器翻譯的主流。這部分介紹了 NMT 中的模型架構、注意力機制、訓練準則和框架等與具體模型訓練相關的內容,還介紹了低資源語言翻譯、多語言翻譯、篇章翻譯等具體任務相關的研究,以及關於機器翻譯系統魯棒性、可視化、可解釋性、公平性等的研究。

低資源語言翻譯任務由於訓練數據少而難度極高。這一兩年來對低資源語言翻譯任務的研究逐漸增多,相關研究大多採用半監督、無監督等方式。清華大學 NLP 組在這部分介紹了半監督、無監督、數據增強、遷移學習、多任務學習和元學習等方法。

篇章翻譯同樣是機器翻譯領域的困難任務。這部分介紹了 2017 和 2018 年的新研究,包括清華大學和搜狗合作發表在 EMNLP 2018 的工作。在此文中,作者提出了一個基於自注意力翻譯模型 Transformer 的篇章級別翻譯模型,利用豐富的上下文信息來幫助進行句子的翻譯,該模型對機器翻譯領域篇章級別翻譯質量的提升也有貢獻。

這部分還涉及自動後編輯、詩歌翻譯等內容,詳細內容請查看該 GitHub repo。

前不久,清華大學 NLP 組還整理了圖網路必讀論文列表,參見:

清華大學孫茂松組:圖神經網路必讀論文列表


推薦閱讀:
相關文章