TTS(Text-To-Speech,語音合成),目前是一個「小而美」的AI領域,但我個人覺得非常有意思,感覺TTS在未來會被行業真正重視起來,並且會出現做得不錯的創業公司。

本文,是我收集了很多線上/線下的相關信息後,提煉出的AI產品經理「最必要」了解的TTS技術知識和行業現狀多了沒必要,少了又不足以入門、準備面試或工作實戰);不僅幫大家節省了時間,更是過濾了很多無用信息和過於技術的內容。

目錄

一、核心概念

二、當前技術邊界

三、瓶頸和機會(重點

一、核心概念

1、TTS和ASR的概念區別

我們比較熟悉的ASR技術(Automatic Speech Recognition,語音識別),是將聲音轉化為文字,可類比於人類的耳朵。

TTS技術(Text-To-Speech,語音合成),是將文字轉化為聲音(朗讀出來),類比於人類的嘴巴。大家在Siri等各種語音助手中聽到的聲音,都是由TTS來生成的,並不是真人在說話。

TTS的技術實現方法,主要有2種:「拼接法」和「參數法」——

2、拼接法

1)定義:從事先錄製的大量語音中,選擇所需的基本單位拼接而成。這樣的單位可以是音節、音素等等;為了追求合成語音的連貫性,也常常用使用雙音子(從一個音素的中央到下一個音素的中央)作為單位。

2)優點:語音質量較高

3)缺點:資料庫要求太大。一般需要幾十個小時的成品預料。企業級商用的話,需要至少5萬句,費用成本在幾百萬元

3、參數法

1)定義:根據統計模型來產生每時每刻的語音參數(包括基頻、共振峰頻率等),然後把這些參數轉化為波形。主要分為3個模塊:前端後端聲碼器

  • 前端做的事情,是把文本進行解析,決定每個字的發音是什麼,這句話用什麼樣的語氣語調,用什麼樣的節奏來讀,哪些地方是需要強調的重點等等。常見的語氣相關的數據描述包含但不限於下面這些:韻律邊界,重音,邊界調,甚至情感。 還有更多的信息甚至是難以客觀描述的,目前的演算法只能暫且忽略。
  • 註:拼接法和參數法,都有前端模塊,拼接和參數的區別主要是後端聲學建模方法的區別。

2)優點:資料庫要求相對較小一些。

  • 如果只需要出聲(做demo),大概500句就可以,但是效果肯定不行。
  • 通用TTS,一般至少需要5000句,6個小時(一般錄製800句話,需要1個小時)。——從前期的準備、找人、找錄音場地、錄製、數據篩選、標註,最終成為「可以用的數據」,可能至少需要3個月。(訊飛在各方面比較成熟,用時會短很多)
  • 個性化TTS,大多數是用「參數」方法的。(adobe、微軟也有嘗試過拼接法,不過相對參數方法來說不是太成熟,效果也並不是太通用)

3)缺點:質量比拼接法差一些。因為受制於發聲演算法,有損失。

  • 因為主要弱點和難點就是聲碼器。聲碼器的作用是復現聲音信號,難在重現聲音細節,並且讓人聽不出各種雜音、沉悶、機械感等等。目前常見的聲碼器都是對聲音信號本身作各種理論模型以及簡化假設,可以說對細節的描述近似於忽略。
  • 註:DeepMind的WaveNet,基本解決了聲碼器的問題。因為他們直接對語音樣本進行預測,不依賴任何發音理論模型。最後出來的音質細節十分豐富,基本達到了與原始語音類似的音質水準(所謂質量提高了50%,就是這裡),而且幾乎可以對任意聲音建模(這就太牛了)。

4、TTS的評判標準

1)主觀測試(自然度),以MOS為主

A)MOS(Mean Opinion Scores),專家級評測(主觀);1-5分,5分最好。

  • 註:微軟小冰公開宣傳是4.3分,但有業內朋友認為,也不能據此就說其「絕對」比科大訊飛好,因為每次評審的專家人選都不一樣。說白了,目前整個AI行業內,還是各家說自己好的節奏。

B)ABX,普通用戶評測(主觀)。讓用戶來試聽兩個TTS系統,進行對比,看哪個好。

C)每次主觀測評應該有區分。比如這次著重聽多音字,下次主要聽語氣詞等。

2)客觀測試

A)對合成系統產生的聲學參數進行評估,一般是計算歐式距離等(RMSE,LSD)。

B)對合成系統工程上的測試:實時率(合成耗時/語音時長)、首包響應時間(用戶發出請求到用戶感知到的第一包到達時間)、內存佔用、CPU佔用、3*24小時crash率等。

二、技術邊界

1、通用TTS

1)在用戶預期不苛刻的場景(APP/硬體),能滿足商業化需求,比如語音助手/滴滴/高德/智能音箱/機器人);但如果用戶預期非常高的話,是很難滿足的,因為還是會有「機器感/機械感」,不能非常自然的模擬人聲。

2)目前行業各家公司的產品效果差不多,都基本能商用。

2、個性化TTS

1)在用戶預期不苛刻的場景,能「基本」滿足商業化需求,但是效果沒通用TTS那麼好。但如果用戶預期非常高的話,暫時是滿足不了的。

2)目前行業內能成熟商用的,主要還是科大訊飛,也有些創業公司在這個領域有所布局,如微量分貝(HEARD)這家致力于海量內容音頻化的企業,對聲音進行了分門別類的生成和儲備,他們瞄準的企業級需求也會更為個性化、品牌化,諸如阿里巴巴旗下的「動物園」品牌(如天貓、閑魚、盒馬、菜鳥等),都會生成諸如「小豬佩奇」這樣的角色化TTS 並被商用。

3、情感TTS

1)目前業界的情感合成更多了,是因為數據本身變多了、更有節奏了,超過了傳統的播音風格,但並不是真正的「喜怒哀樂」等情感合成(想高興就高興的這種智能)

2)在情感TTS的理論方面,學術界是有儲備的,但是,整個行業目前都沒怎麼做(或者沒做好)是因為情感TTS很依賴「情感意圖識別」,「情感特徵挖掘」、「情感數據」以及「情感聲學技術」等,是個系統工程。其中第1點,即是和自然語言處理相關,比如需要知道「什麼時侯該高興或悲傷」;同時,具有情感演繹的語音數據的儲備,也非常重要。

三、瓶頸和機會

主要有5個方向的瓶頸(同時也是機會)。

1、基礎技術

1)TTS技術正處於重大變革端到端(End-to-End)的TTS建模方法,加上WaveNet 的聲碼器思想,是未來TTS的發展方向。

  • 端到端TTS,一般指tacotron,tacotron只是Google提出的合併了原先時長模型和聲學模型的中段結構,可以接任何TTS前端和TTS後端。TTS前端如中文分詞、注音、詞性,都會提升tacotron性能;後端,參數、拼接、wavenet都可以選用。
  • 關於WaveNet技術的商業化:Google今年初將第二代WaveNet技術商業化了,速度比第一代快一萬倍。而國內各家公司,基本也仿製出來了(論文演算法),但工程化還需要時間,而且成本還是太高,短期內應該沒法商用。
  • 關於效果:TTS最終效果好壞,技術只佔50%不到,在技術都差不多的情況下,聲優質量數據量最重要,其次是相同部署規模和成本的TTS才能相互比較即,不能簡單的說哪家公司的效果比另一家更好,a)比如,拿百度/騰訊/阿里/圖靈等很多家AI公司的WaveNet v1的效果,一般都能超過訊飛線上的介面,但部署成本高几萬倍,且不實時;WaveNet V2商業化以後,雖然能實時,但部署成本至少也比高配拼接TTS高10倍左右。b)成本,部分和採樣率相關,例如,訊飛/百度TTS的採樣率都是16k,如果用24k和48k,主觀體驗至少強50%,但成本會翻倍;也就是說,其他AI公司的24kTTS的MOS,能吊打訊飛/百度的API,但不能說他們的技術就比訊飛/百度強,因為在商業化時,會犧牲效果來降低成本。

2)如何讓離線版效果達到在線版水平。很多客戶希望(奢望)有離線版本,並且效果和在線版本一樣好……現階段來說,可能真是「臣妾做不到啊」。

2、數據缺乏

一方面,特別是個性化TTS,需要數據量更大。比如默認男孩聲音,要轉成女孩,就比較難。

另一方面,數據的獲取(製作)成本和周期,也是各家在初期的競爭著力點,比如,一般來說,一款(套)TTS數據,至少需要先錄製2-3萬句話,再加上數據標註,通常耗時在3個月以上(且需要主播全力配合),對於30小時的數據,價格通常在30-50萬,而上文提到的微量分貝(HEARD)這家公司,調動了8000+位優質播音人員,在給不同內容配音的同時,也做了大量結構化數據的存儲(庫存化),這樣,針對大部分客戶的數據需求,並不需要再找主播進行錄製,而是直接從倉庫調取數據進行解凍即可(數據標註);通過將這種 「邊進行業務邊賺取數據」的流程標準化,其獲取數據的成本大大降低到行業的五分之一 ,並且一旦有需求,可以在1個月內進行交付。這家公司在南方搭建的數據標註工場的規模,也是巨大的,包括華為等公司都從其採購語音合成數據。

3、人才匱乏

不僅沒法跟NLP、CV等熱門AI人才比,就算跟同樣不算熱門的ASR比,TTS的人才都還要少一些。

4、產品化難度

由於技術限制,現階段不可能有非常完美的TTS效果,所以

1)盡量選擇用戶預期不苛刻的場景,或者在產品體驗設計時,管理好用戶預期(比如打車軟體,郭德綱/林志玲的聲音,差不多就行)。

2)選擇「參數法」還是「拼接法」,和公司的技術儲備、成本、以及產品目標相關。在垂直領域,現有的TTS技術(參數或者拼接)都可以針對產品做得很好。現在行業還沒有太好的效果,很大原因是因為產品經理還沒有深入介入,有很多細節的坑要踩(產品設計+工程化實現)——未來應該會有驚艷的產品出現。

3)體驗細節設計,和一般互聯網產品很不同,比如

A)文案設計,非常重要;因為在語音交互場景,不能太長,用戶沒耐心和時間聽完的。

B)可以加入背景音樂,掩蓋雜音等細節瑕疵。

C)特殊場景,還有特別的需求,比如遠場場景和戴耳機場景相比,還是會有區別的。

D)中英文混合TTS。比如用戶想播首英語歌曲,困難在於:所有中文的發音當中,中文和英文合拍念出來是很難的,為什麼呢?因為往往錄音的人。錄中文是一批人,錄英文又是一批人。兩種語言結合起來,再用機器學習學出來,聲音就會變得非常怪。這方面,小雅音箱曾經花了很大的精力和成本去「死磕」解決,詳見《傅盛:人工智慧的破局點是技術和產品結合【獵戶星空發布小雅語音 OS】》。

5、商業化壓力

1)如果要有足夠的市場競爭力,至少需要12個月的時間,2~6人團隊(如果有人做過前端相關工作,會節省巨大成本——工作量主要在中文前端NLP部分,比如分詞、注音、詞性文本規整化等),幾百萬資金投入(1個GPU一年十萬,支持並發只有幾十個)。並且,大公司的先發優勢巨大,小公司必須切細分場景。

2)我個人認為,個性化TTS、情感TTS會在各細分場景得到更大的應用,比如知識付費、明星IP、智能硬體、車聯網、實體/虛擬機器人等。

附:相關資料

1、相關高校及實驗室

語音合成涉及專業領域較廣,包含語言學、聽覺與發聲機理、自然語言分析、深度學習、信號處理等諸多領域,是一門綜合性學科。

國際上,英國愛丁堡大學Simon King教授,卡耐基梅隆大學Alan W Black教授, 日本和歌山大學Kawahara教授,谷歌Heiga Zen所在的實驗室均為國際頂級實驗室。

國內來說,中國學術屆也一直走在行業的前列,國際語音合成挑戰賽blizzard challenge已經連續10多年冠軍在中國。國內大部分的語音合成人才,均來自於中科大、中科院自動化所、中科院聲學所、清華大學、西北工業大學等幾家單位,比如西北工業大學的謝磊老師組,已向語音合成屆輸送了大量人才,在微軟、百度、搜狗、小米、IBM、訊飛、流利說、出門問問、獵戶星空、同盾等公司的核心崗位上,都有來自西工大的學生。

2、參考文章

  • 《目前,人工智慧語音在說中文時的語氣感覺上還比較機械,怎樣使人工智慧語音的語氣更自然一些?》
  • 《如何評價谷歌下一代語音合成系統WaveNet?》
  • 《TTS(Text-To-Speech)的原理是什麼?》
  • 《百度Deep Voice作者與Bengio團隊探討五大技術細節,端到端的語音合成還有多遠?》

3、相關產品

訊飛配音app、訊飛朗讀助手app、閃電配音等。

4、有趣視頻

《武漢地鐵語音播報已逆天,這是要稱霸全國的節奏啊》

---------------------

作者:黃釗hanniman,圖靈機器人-人才戰略官,前騰訊產品經理,6年AI實戰經驗,9年互聯網背景,微信公眾號/知乎/在行ID「hanniman」,飯糰「AI產品經理大本營」,分享人工智慧相關原創乾貨,200頁PPT《人工智慧產品經理的新起點》被業內廣泛好評,下載量1萬+。

推薦閱讀:

相关文章