【新智元導讀】今天,谷歌發布 Translatotron 語音翻譯系統,這是第一個可以直接將一個人的聲音從一種語言轉換成另一種語言,同時保持說話人的聲音和節奏的翻譯模型。
讓說不同語言的人更容易地、直接地相互交流,這是語音到語音的翻譯系統 (Speech-to-speech translation) 的目的,這樣的系統在過去幾十年裏取得了不錯的進展。
今天,谷歌發布 Translatotron 語音翻譯系統,這是第一個可以直接將一個人的聲音從一種語言轉換成另一種語言,同時保持說話人的聲音和節奏的翻譯模型。
傳統上,語音翻譯系統通常有 3 個獨立的部分:自動語音識別將源語音轉錄為文本,機器翻譯將轉錄的文本翻譯成目標語言,最後,文本到語音合成 (TTS) 系統將翻譯文本轉換成目標語言的語音。
許多商業語音到語音翻譯的產品都採用這樣的系統,包括 Google Translate。但是,這類系統依賴於中間文本,準確率不高,而且效率較低。
谷歌的新工具 Translatotron 捨棄了將語音翻譯為文本再返回語音的步驟,而是採用端到端的技術,直接將說話者的聲音翻譯成另一種語言。這使它能夠快速地翻譯,但更重要的是,能夠更容易反映說話人的語調和節奏。