Tensorflow 2.0 之「机器翻译」

为了更好的于都本篇文章，推荐大家需要准备：

Tensorflow 2.0 环境
阅读 Sequence to Sequence Learning 论文: 论文链接
阅读 Attention 相关论文: 论文链接

如果大家准备好了，那我们就开始吧！

1. 概述

我们的目标非常简单：我们将使用一个非常简单的数据集（仅有20个句子）和经典的Seq2Seq模型，应用TensorFlow2.0来训练。

我们将通过以下步骤实现：

数据准备
没有注意力机制的Seq2Seq
有注意力机制的Seq2Seq

2. 数据准备

我们将使用20个英语 - 法语组（从原始数据集中提取）。使用这么小的数据集的原因是：

更容易理解序列的标记方式
训练速度极快
即使您不会说法语，也无需确认结果

首先，让我们导入必要的包并查看数据：

import tensorflow as tf import numpy as np import unicodedata import re ? raw_data = ( (What a ridiculous concept!, Quel concept ridicule !), (Your idea is not entirely crazy., "Votre idée nest pas complètement folle."), ("A mans worth lies in what he is.", "La valeur dun homme réside dans ce quil est."), (What he did is very wrong., "Ce quil a fait est très mal."), ("All three of you need to do that.", "Vous avez besoin de faire cela, tous les trois."), ("Are you giving me another chance?", "Me donnez-vous une autre chance ?"), ("Both Tom and Mary work as models.", "Tom et Mary travaillent tous les deux comme mannequins."), ("Can I have a few minutes, please?", "Puis-je avoir quelques minutes, je vous prie ?"), ("Could you close the door, please?", "Pourriez-vous fermer la porte, sil vous pla?t ?"), ("Did you plant pumpkins this year?", "Cette année, avez-vous planté des citrouilles??"), ("Do you ever study in the library?", "Est-ce que vous étudiez à la bibliothèque des fois ?"), ("Dont be deceived by appearances.", "Ne vous laissez pas abuser par les apparences."), ("Excuse me. Can you speak English?", "Je vous prie de mexcuser ! Savez-vous parler anglais ?"), ("Few people know the true meaning.", "Peu de gens savent ce que cela veut réellement dire."), ("Germany produced many scientists.", "LAllemagne a produit beaucoup de scientifiques."), ("Guess whose birthday it is today.", "Devine de qui cest lanniversaire, aujourdhui !"), ("He acted like he owned the place.", "Il sest comporté comme sil possédait lendroit."), ("Honesty will pay in the long run.", "Lhonnêteté paye à la longue."), ("How do we know this isnt a trap?", "Comment savez-vous quil ne sagit pas dun piège ?"), ("I cant believe youre giving up.", "Je narrive pas à croire que vous abandonniez."), )

如所见，数据是一个元组列表，其中每个元组包含一个英语句子和一个法语句子。

接下来，我们需要稍微清理原始数据。这种任务通常包括规范化字元串，过滤不需要的字元，在标点符号前添加空格等。大多数时候，你需要的是两个函数，如下所示：

def unicode_to_ascii(s): return .join( c for c in unicodedata.normalize(NFD, s) if unicodedata.category(c) != Mn)

def normalize_string(s):
s = unicode_to_ascii(s)
s = re.sub(r([!.?]), r 1, s)
s = re.sub(r[^a-zA-Z.!?]+, r , s)
s = re.sub(rs+, r , s)
return s

我们现在将数据拆分为两个单独的列表，每个列表包含自己的句子。然后我们将应用上面的函数并添加两个特殊标记：<start>和<end>：

raw_data_en, raw_data_fr = list(zip(*raw_data)) raw_data_en, raw_data_fr = list(raw_data_en), list(raw_data_fr) ? raw_data_en = [normalize_string(data) for data in raw_data_en] raw_data_fr_in = [<start> + normalize_string(data) for data in raw_data_fr] raw_data_fr_out = [normalize_string(data) + <end> for data in raw_data_fr]

我需要在这里详细说明一下。首先，我们来看看下图：