這兩天在北京參加了 AI Challenger 2018 總決賽,這次又有點小幸運拿到了英中機器翻譯決賽第5名,不過整個過程和去年的《AI Challenger 2017 奇遇記》有所不同。去年參加比賽的定位是「學」,學習NMT的相關知識和調研相關工具;今年參加比賽的定位是「用」,用熟悉的NMT工具。

與去年相比,今年的 AI Challenger 機器翻譯賽道做了「優化」,首先沒有了同傳賽道,這個賽道去年因為有了「同傳」二字嚇走了一批人,其次最高獎金也降了,降到了20萬,所以感覺相比於其他兩個文本挖掘賽道,英中文本機器翻譯賽道要冷清一些,另外一個原因可能是機器翻譯的千萬中英雙語句對語料對機器資源的要求要高一些。

另外今年 AI Challenger 英中文本機器翻譯大賽雖然語料還是口語領域的,但是額外增加了Document上下文語料,也是本次比賽新的命題點和關注點:

賽題描述

簡介

英中機器文本翻譯作為此次比賽的任務之一,目標是評測各個團隊機器翻譯的能力。本次機器翻譯語言方向為英文到中文。測試文本為口語領域數據。參賽隊伍需要根據評測方提供的數據訓練機器翻譯系統,可以自由的選擇機器翻譯技術。例如,基於規則的翻譯技術、統計機器翻譯及神經網路機器翻譯等。

本次競賽將利用機器翻譯的客觀考核指標(BLEU、NIST score、TER)進行評分,BLEU得分會作為主要的機器評價指標。組委會將通過客觀指標,並結合答辯表現,綜合評估參賽者的演算法模型。 數據說明訓練集文件名train.txt,其中每個訓練樣例包含自左至右4個元素:DocID, SenID, EngSen,ChnSen。DocID表示這個樣例出現在哪個文件中,DocID用來提供訓練集中句子出現的場景和上下文情景。SenID表示這個樣例在DocID中出現的位置,比如,如果SenID為94,那麼這個樣例就是DocID的第94句話。若無上下文信息,則DocID和SenID均為NA。EngSen和ChnSen分別對應英文句子和中文句子,二者互譯。驗證集和測試集為.sgm文件,句子格式和訓練集相同。其中測試集沒有與英文句子EngSen對應的中文句子ChnSen。訓練集和測試集、驗證集的上下文文件包含所有語句的上下文的信息,其中每行包含自左至右三個元素:DocID, SenID, EngSen訓練集樣例如下所示(第一列DocID, 第二列SenID, 第三列EngSen,第四列ChnSen):

測試集、驗證集樣例如下所示(第一列為DocID,第二列SenID,第三列EngSen):

驗證集中文樣例如下所示:

上下文文件樣例如下所示(第一列為DocID,第二列SenID,第三列EngSen):

訓練條件

本次評測只允許參賽方使用評測方指定的數據訓練機器翻譯系統,並對其排名。參賽方需遵守以下關於訓練方式的說明。參賽方可以使用基本的自然語言處理工具,例如中文分詞和命名實體識別。

這次比賽,我沒有使用 tensor2tensor,雖然這個工具是去年助我獲獎的最終大殺器,也是今年官方推薦的baseline工具:AI Challenger 2018 文本挖掘類競賽相關解決方案及代碼匯總 。而是直接使用開源的神經網路機器翻譯工具:Marian,這是一個高效的NMT工具,純C++編寫,特點就是快,很快,無論訓練和解碼,都非常快。Marian的標籤是:Fast Neural Machine Translation in C++,它主要由波蘭的波茲南亞當密茨凱維奇大學(AMU)和英國的愛丁堡大學共同開發,後者和Moses的關係緊密,所以Marian的開發者里也包括了Moses的一些開發者。

限於時間和工作關係,我沒有用到Document上下文數據。數據預處理階段和去年的路數差不多:英文數據利用Moses的相關腳本進行了預處理,包括tokenize和true case, 中文數據利用Jieba中文分詞工具進行分詞;英中數據共同使用bpe subword進行預處理;同時計算了句子長度比例分布,對詞長超過100的句子對進行了過濾,對比例嚴重失調的句子對也進行了過濾。

模型訓練階段直接follow了愛丁堡大學的 wmt2017 英德系統的訓練流程,並且用了加強版transformer模型,最終提交時得分是這樣的:

最終在TestB上提交的3個結果如上,都是多個模型的ensemble融合解碼,做了一些參數和權重調整。

B榜結果出來之時,排在第7位,這個結果比之前的預想要好;之後在代碼核驗階段,被拉進了一個top7群,和搜狗的工程師一起核驗整個流程;最終被拉進了決賽答辯群,才發現前面又有兩個隊伍因種種原因放棄了,和去年又有一些相似。

參加決賽答辯的好處是可以學習一下前幾名的方案,還是很好奇他們怎麼做到的,另外一個好處是全程不用自己操心,官方從機票到酒店都弄得好好的,只要安心來參加活動就可以了。最終答辯的隊伍除了我之外,有2個金山、1個浙大、1個京東團隊,去年分獲英中文本機器翻譯第一和英中同傳翻譯第一的獵豹移動和自動化所紫冬認知沒有參賽。金山和京東的同學,他們使用的機器都巨好,印象是V100還有P100,在好機器的加持下,加上細心的策略,是可以出好成績的。

推薦閱讀:

相关文章