同聲傳譯被攻陷！谷歌發布 Translatotron 直接語音翻譯系統

【新智元導讀】今天，谷歌發布 Translatotron 語音翻譯系統，這是第一個可以直接將一個人的聲音從一種語言轉換成另一種語言，同時保持說話人的聲音和節奏的翻譯模型。

讓說不同語言的人更容易地、直接地相互交流，這是語音到語音的翻譯系統 (Speech-to-speech translation) 的目的，這樣的系統在過去幾十年裏取得了不錯的進展。

今天，谷歌發布 Translatotron 語音翻譯系統，這是第一個可以直接將一個人的聲音從一種語言轉換成另一種語言，同時保持說話人的聲音和節奏的翻譯模型。

傳統上，語音翻譯系統通常有 3 個獨立的部分：自動語音識別將源語音轉錄為文本，機器翻譯將轉錄的文本翻譯成目標語言，最後，文本到語音合成 (TTS) 系統將翻譯文本轉換成目標語言的語音。

許多商業語音到語音翻譯的產品都採用這樣的系統，包括 Google Translate。但是，這類系統依賴於中間文本，準確率不高，而且效率較低。

谷歌的新工具 Translatotron 捨棄了將語音翻譯為文本再返回語音的步驟，而是採用端到端的技術，直接將說話者的聲音翻譯成另一種語言。這使它能夠快速地翻譯，但更重要的是，能夠更容易反映說話人的語調和節奏。

Translatotron：不依賴中間文本，直接翻譯語音