台湾 || 语言: 大陆简体港澳繁體台灣正體

論文筆記：平行語料庫過濾系統

雪花臺灣 2019-04-21 23:22

翻譯。。

Alibaba Submission to the WMT18 Parallel Corpus Filtering Task

一、簡介

在評估平行語料庫的質量時，研究語料庫的三個特徵，即1）語言/翻譯質量，2）單語質量，3）語料庫多樣性。基於規則和基於模型的方法都適用於對並行句子對進行評分。

語料庫清理任務分為三個部分：

高質量的並行句子對應該具有，其目標句子精確地轉換為源句子的特性，反之亦然。通過量化翻譯質量（也稱為雙語分數）和句子對的準確性去做。
評估平行語料庫的目標和/或源語義的質量。
我們需要關注所有領域，以便可以廣泛使用最終的MT系統。因此，在對並行結構進行二次採樣時，應對多樣性進行評估。

最後，將並行語料庫的三個特徵組合起來構建最終的乾淨語料庫

二、平行句子評分方法

2.1，Bilingual Quality Evaluation

包括一個嘈雜的語料庫過濾規則、兩種翻譯質量評估方法：（1）基於單詞對齊的雙語評分和（2）基於Bitoken CNN分類器的雙語評分

Rule-based Filtering

句子長度比。源句子/目標句子。以tokens或者單詞為單位。比例範圍[0.4,2.5]
編輯距離。編輯距離小，則源、目標較相似，這對翻譯系統是不好的。所以過濾掉距離距離小於2，或編輯距離比小於0.1的句子對。編輯距離比：編輯距離通過源和目標句子長度的平均長度來標準化。
特殊標記的一致性。比如郵箱地址，直接複製即可。

Word Alignment-based Bilingual Scoring

相關文章