Tensorflow 2.0 之「機器翻譯」

為了更好的於都本篇文章，推薦大家需要準備：

Tensorflow 2.0 環境
閱讀 Sequence to Sequence Learning 論文: 論文鏈接
閱讀 Attention 相關論文: 論文鏈接

如果大家準備好了，那我們就開始吧！

1. 概述

我們的目標非常簡單：我們將使用一個非常簡單的數據集（僅有20個句子）和經典的Seq2Seq模型，應用TensorFlow2.0來訓練。

我們將通過以下步驟實現：

數據準備
沒有注意力機制的Seq2Seq
有注意力機制的Seq2Seq

2. 數據準備

我們將使用20個英語 - 法語組（從原始數據集中提取）。使用這麼小的數據集的原因是：

更容易理解序列的標記方式
訓練速度極快
即使您不會說法語，也無需確認結果

首先，讓我們導入必要的包並查看數據：

import tensorflow as tf import numpy as np import unicodedata import re ? raw_data = ( (What a ridiculous concept!, Quel concept ridicule !), (Your idea is not entirely crazy., "Votre idée nest pas complètement folle."), ("A mans worth lies in what he is.", "La valeur dun homme réside dans ce quil est."), (What he did is very wrong., "Ce quil a fait est très mal."), ("All three of you need to do that.", "Vous avez besoin de faire cela, tous les trois."), ("Are you giving me another chance?", "Me donnez-vous une autre chance ?"), ("Both Tom and Mary work as models.", "Tom et Mary travaillent tous les deux comme mannequins."), ("Can I have a few minutes, please?", "Puis-je avoir quelques minutes, je vous prie ?"), ("Could you close the door, please?", "Pourriez-vous fermer la porte, sil vous pla?t ?"), ("Did you plant pumpkins this year?", "Cette année, avez-vous planté des citrouilles??"), ("Do you ever study in the library?", "Est-ce que vous étudiez à la bibliothèque des fois ?"), ("Dont be deceived by appearances.", "Ne vous laissez pas abuser par les apparences."), ("Excuse me. Can you speak English?", "Je vous prie de mexcuser ! Savez-vous parler anglais ?"), ("Few people know the true meaning.", "Peu de gens savent ce que cela veut réellement dire."), ("Germany produced many scientists.", "LAllemagne a produit beaucoup de scientifiques."), ("Guess whose birthday it is today.", "Devine de qui cest lanniversaire, aujourdhui !"), ("He acted like he owned the place.", "Il sest comporté comme sil possédait lendroit."), ("Honesty will pay in the long run.", "Lhonnêteté paye à la longue."), ("How do we know this isnt a trap?", "Comment savez-vous quil ne sagit pas dun piège ?"), ("I cant believe youre giving up.", "Je narrive pas à croire que vous abandonniez."), )

如所見，數據是一個元組列表，其中每個元組包含一個英語句子和一個法語句子。

接下來，我們需要稍微清理原始數據。這種任務通常包括規範化字元串，過濾不需要的字元，在標點符號前添加空格等。大多數時候，你需要的是兩個函數，如下所示：

def unicode_to_ascii(s): return .join( c for c in unicodedata.normalize(NFD, s) if unicodedata.category(c) != Mn)

def normalize_string(s):
s = unicode_to_ascii(s)
s = re.sub(r([!.?]), r 1, s)
s = re.sub(r[^a-zA-Z.!?]+, r , s)
s = re.sub(rs+, r , s)
return s

我們現在將數據拆分為兩個單獨的列表，每個列表包含自己的句子。然後我們將應用上面的函數並添加兩個特殊標記：<start>和<end>：

raw_data_en, raw_data_fr = list(zip(*raw_data)) raw_data_en, raw_data_fr = list(raw_data_en), list(raw_data_fr) ? raw_data_en = [normalize_string(data) for data in raw_data_en] raw_data_fr_in = [<start> + normalize_string(data) for data in raw_data_fr] raw_data_fr_out = [normalize_string(data) + <end> for data in raw_data_fr]

我需要在這裡詳細說明一下。首先，我們來看看下圖：