翻譯。。

Alibaba Submission to the WMT18 Parallel Corpus Filtering Task

一、簡介

在評估平行語料庫的質量時,研究語料庫的三個特徵,即1)語言/翻譯質量,2)單語質量,3)語料庫多樣性。 基於規則和基於模型的方法都適用於對並行句子對進行評分。

語料庫清理任務分為三個部分:

  1. 高質量的並行句子對應該具有,其目標句子精確地轉換為源句子的特性,反之亦然。通過量化翻譯質量(也稱為雙語分數)和句子對的準確性去做。
  2. 評估平行語料庫的目標和/或源語義的質量。
  3. 我們需要關注所有領域,以便可以廣泛使用最終的MT系統。 因此,在對並行結構進行二次採樣時,應對多樣性進行評估。

最後,將並行語料庫的三個特徵組合起來構建最終的乾淨語料庫

二、平行句子評分方法

2.1,Bilingual Quality Evaluation

包括一個嘈雜的語料庫過濾規則、兩種翻譯質量評估方法:(1)基於單詞對齊的雙語評分和(2)基於Bitoken CNN分類器的雙語評分

Rule-based Filtering

  • 句子長度比。源句子/目標句子。以tokens或者單詞為單位。比例範圍[0.4,2.5]
  • 編輯距離。編輯距離小,則源、目標較相似,這對翻譯系統是不好的。所以過濾掉距離距離小於2,或編輯距離比小於0.1的句子對。編輯距離比:編輯距離通過源和目標句子長度的平均長度來標準化。
  • 特殊標記的一致性。比如郵箱地址,直接複製即可。

Word Alignment-based Bilingual Scoring

在此任務中,單詞對齊模型在WMT18新翻譯任務提供的乾淨平行語料庫上進行訓練。 我們使用fast align來訓練模型,並獲得正向和反向單詞翻譯概率表。

Bitoken CNN Classifier-based Bilingual Scoring

從對齊的句子對中提取bitokens。 序列中的每個bitoken被視為一個單詞,每個bitoken序列被視為一個正常的句子。 然後將這些bitoken語句送入CNN分類器以構建雙語評分模型。 對於每個候選句子對,該模型將給出兩個概率:p(pos)和p(neg),質量得分被視為scorebitoken = p(pos) - p(neg)。

對於訓練數據集,從高質量語料庫獲得的bitoken序列被標記為正。 對於負訓練數據,我們根據乾淨的數據手動構建一些雜訊數據。例如,將乾淨的平行語料庫的目標側面信息隨機排序,或隨機刪除源或目標句子的單詞。 因此可以從這個不平行的語料庫中獲得負bitoken序列。

2.2,Monolingual Quality Evaluation (單語質量評估)

Rule based Filtering

  • 刪除句子長度不在[2,80]的句子
  • 有效token的比率計算為句子的長度。 這裡,有效令牌是包含相應語言中的字母的令牌。 例如,英語中的有效令牌應包含英文字母。 如果句子的有效令牌比率小於0.2,則過濾。
  • 語言過濾。如果源、目標語言,不是我們想要的語言,則過濾掉。

Language Model Scoring

語言模型可用於過濾掉不合語法的數據。

2.3, Corpus Diversity(語料庫多樣性)

Rule-based Filtering

我們可以使用一個簡單的規則來減少類似句子對的數量。在我們的實驗中,對於英語句子,通過刪除除英文字母之外的所有字元來完成泛化。之後,如果某些句子對具有相同的通用源或目標句子,則將選擇具有最高質量分數的句子對。

N-gram based Diversity Scoring

基於N-gram的多樣性評分通常用於選擇具有高度多樣性的單語句

Parallel Phrases Diversity Scoring

在這裡,我們的目標是選擇包含各種平行短語的雙語語料庫。 有了這種語料庫,MT模型將學習更多的翻譯知識。

首先,我們使用fast align toolkit來訓練單詞對齊模型。 然後可以使用Moses toolkit提取語料庫的短語表。 接下來,我們可以使用最大匹配方法從短語表中獲得每個句子對的並行短語對。 最後,遵循基於N-gram的多樣性評分部分中描述的方法,相同的選擇過程(其中,N-gram被短語對替換)用於句子對的評分。 在我們的系統中,當短語長度小於7時,它最有效。

2.4, Methods Combination and corpus sampling

在我們的語料庫過濾系統中,所有方法都組合成一個管道。

首先,我們應用所有雙語和單語規則來過濾非常嘈雜的句子對。 然後,通過上述相應模型可以產生兩個雙語分數和目標側語言模型分數。 這三個分數被單獨標準化,然後線性組合以產生單一質量分數。 之後,我們按照相應的質量得分按降序對句子對進行排序。 然後使用多樣性方法重新評分/重新排序語料庫。 最後,我們選擇了兩組前N個句子對,其中包含總共1000萬個單詞和1億個單詞。


The JHU Parallel Corpus Filtering Systems for WMT 2018 (英法)

對 Zipporah Corpus Filtering toolkit 的改進。

Zip- porah Corpus Filtering toolkit 用詞袋模型生成一個適應性分數,再用n-gram生成流暢性分數。這兩個分數基於訓練的權重進行組合,以便將乾淨的數據與雜訊數據分開。

Zip- porah Corpus Filtering toolkit 工作原理:它首先將所有句子對映射到建議的特徵空間,然後訓練一個簡單的邏輯回歸模型來分離已知的好數據和壞數據。 一旦模型被訓練,它就被用於對雜訊數據池中的句子對進行評分。

兩個分數裡面一堆公式。。

改進只是數據集不同:使用 Paracrawl 作為 noisy 而不是人工合成 noisy;訓練數據使用 WMT 的乾淨的負訓練集,而不是對乾淨的語料重組得到負樣例。


Coverage and Cynicism: The AFRL Submission to the WMT 2018 Parallel Corpus Filtering Task

數據集中的主要雜訊類型是:

  1. 不是自然語言
  2. 一種或兩種語言都不正確
  3. 正確的自然語言,但不是彼此的翻譯

子集選擇技術通常將集合減少到最有用的集合。 在這種情況下,這需要:

?避免選擇過度重複其他所選行內容的行。

?避免選擇長句,這將在訓練NMT系統時被忽略。

作為第一步,將粗略的預處理過濾器應用於數據。 這需要刪除:

?任一語言包含80個以上單詞的行

?兩種語言包含少於4個單詞的行

?包含「www」的行,作為具有Web地址的行,往往提供的有用信息較少

?英語單詞數與德語單詞數之比大於三或小於三分之一的行

?包含Unicode一般類別為「other」的字元的行

?刪除空格,句點和數字字元後,英語文本與德語文本相同的行。

?兩種語言中數字字元不同(或順序不同)的行

  • hunalign 得分小於0.5或大於1.5或大於1.5的線

第二步:

標點符號正常化 and so on..

這篇文章主要是做英德的平行語料的。。算了不看了。。


推薦閱讀:
相關文章