翻譯。。
Alibaba Submission to the WMT18 Parallel Corpus Filtering Task
一、簡介
在評估平行語料庫的質量時,研究語料庫的三個特徵,即1)語言/翻譯質量,2)單語質量,3)語料庫多樣性。 基於規則和基於模型的方法都適用於對並行句子對進行評分。
語料庫清理任務分為三個部分:
最後,將並行語料庫的三個特徵組合起來構建最終的乾淨語料庫
二、平行句子評分方法
2.1,Bilingual Quality Evaluation
包括一個嘈雜的語料庫過濾規則、兩種翻譯質量評估方法:(1)基於單詞對齊的雙語評分和(2)基於Bitoken CNN分類器的雙語評分
Rule-based Filtering
Word Alignment-based Bilingual Scoring
在此任務中,單詞對齊模型在WMT18新翻譯任務提供的乾淨平行語料庫上進行訓練。 我們使用fast align來訓練模型,並獲得正向和反向單詞翻譯概率表。
Bitoken CNN Classifier-based Bilingual Scoring
對於訓練數據集,從高質量語料庫獲得的bitoken序列被標記為正。 對於負訓練數據,我們根據乾淨的數據手動構建一些雜訊數據。例如,將乾淨的平行語料庫的目標側面信息隨機排序,或隨機刪除源或目標句子的單詞。 因此可以從這個不平行的語料庫中獲得負bitoken序列。
2.2,Monolingual Quality Evaluation (單語質量評估)
Rule based Filtering
Language Model Scoring
語言模型可用於過濾掉不合語法的數據。
2.3, Corpus Diversity(語料庫多樣性)
我們可以使用一個簡單的規則來減少類似句子對的數量。在我們的實驗中,對於英語句子,通過刪除除英文字母之外的所有字元來完成泛化。之後,如果某些句子對具有相同的通用源或目標句子,則將選擇具有最高質量分數的句子對。
N-gram based Diversity Scoring
基於N-gram的多樣性評分通常用於選擇具有高度多樣性的單語句
Parallel Phrases Diversity Scoring
在這裡,我們的目標是選擇包含各種平行短語的雙語語料庫。 有了這種語料庫,MT模型將學習更多的翻譯知識。
首先,我們使用fast align toolkit來訓練單詞對齊模型。 然後可以使用Moses toolkit提取語料庫的短語表。 接下來,我們可以使用最大匹配方法從短語表中獲得每個句子對的並行短語對。 最後,遵循基於N-gram的多樣性評分部分中描述的方法,相同的選擇過程(其中,N-gram被短語對替換)用於句子對的評分。 在我們的系統中,當短語長度小於7時,它最有效。
2.4, Methods Combination and corpus sampling
在我們的語料庫過濾系統中,所有方法都組合成一個管道。首先,我們應用所有雙語和單語規則來過濾非常嘈雜的句子對。 然後,通過上述相應模型可以產生兩個雙語分數和目標側語言模型分數。 這三個分數被單獨標準化,然後線性組合以產生單一質量分數。 之後,我們按照相應的質量得分按降序對句子對進行排序。 然後使用多樣性方法重新評分/重新排序語料庫。 最後,我們選擇了兩組前N個句子對,其中包含總共1000萬個單詞和1億個單詞。
在我們的語料庫過濾系統中,所有方法都組合成一個管道。
The JHU Parallel Corpus Filtering Systems for WMT 2018 (英法)
對 Zipporah Corpus Filtering toolkit 的改進。
Zip- porah Corpus Filtering toolkit 用詞袋模型生成一個適應性分數,再用n-gram生成流暢性分數。這兩個分數基於訓練的權重進行組合,以便將乾淨的數據與雜訊數據分開。
Zip- porah Corpus Filtering toolkit 工作原理:它首先將所有句子對映射到建議的特徵空間,然後訓練一個簡單的邏輯回歸模型來分離已知的好數據和壞數據。 一旦模型被訓練,它就被用於對雜訊數據池中的句子對進行評分。
兩個分數裡面一堆公式。。
改進只是數據集不同:使用 Paracrawl 作為 noisy 而不是人工合成 noisy;訓練數據使用 WMT 的乾淨的負訓練集,而不是對乾淨的語料重組得到負樣例。
Coverage and Cynicism: The AFRL Submission to the WMT 2018 Parallel Corpus Filtering Task
數據集中的主要雜訊類型是:
子集選擇技術通常將集合減少到最有用的集合。 在這種情況下,這需要:
?避免選擇過度重複其他所選行內容的行。
?避免選擇長句,這將在訓練NMT系統時被忽略。
作為第一步,將粗略的預處理過濾器應用於數據。 這需要刪除:
?任一語言包含80個以上單詞的行
?兩種語言包含少於4個單詞的行
?包含「www」的行,作為具有Web地址的行,往往提供的有用信息較少
?英語單詞數與德語單詞數之比大於三或小於三分之一的行
?包含Unicode一般類別為「other」的字元的行
?刪除空格,句點和數字字元後,英語文本與德語文本相同的行。
?兩種語言中數字字元不同(或順序不同)的行
第二步:
標點符號正常化 and so on..
這篇文章主要是做英德的平行語料的。。算了不看了。。