語音合成技術中,不管是用拼接法還是參數法,都分別有其利弊。拼接法合成需要錄製大量語音以保證覆蓋率。參數法並不需要100%的覆蓋率。但由於使用參數法輸出的是用聲碼器合成的聲音,免不了有缺失,聽起來不自然。

在技術的發展下,目前語音合成的實現已經有了很大進步,語言交互的聲音語調基本還算是人話,但還有很大的提升空間。

用戶普遍還沒有使用語音交互的習慣主要原因, 無非是語音表達還不夠人性化,機械感滿滿。

在語音合成技術中,為了讓語音助手更像人,還需要做出怎樣的努力?

提高合成語音的自然度仍然是高性能文語轉換的當務之急。

就漢語語音合成來說,目前在單字和片語一級上,合成語音的可懂度和自然度已基本解決,但是到長句子乃至篇章一級時其自然度問題就比較大。

基於語音資料庫的語音合成方法有望進一步提高語音合成的自然度。 因為這是一種採用自然語音波形直接拼接的方法,進行拼接的語音單元是從一個預先錄下的自然語音資料庫中挑選出來的,因此有可能最大限度地保留語音的自然度。

但由此產生了一系列新的需要研究的問題,包括:如何確定語音合成的基元,根據什麼準則去挑選合適的基元;韻律參數定量化問題,對資料庫進行定標問題;以及如何將統計的方法和規則方法相結合使機器能自動發現和找出所需的語音單元,保證最高的合成語句自然度等等。

  無論用哪種合成方法,韻律規則的總結,特別是連續語音的韻律規則總結,儘可能將定性的規則描述定量化,對自然度始終有最重要的影響。還有前端文本處理, 對合成語音的自然度也具有舉足輕重的影響, 完整全面的解決, 需要自然語言理解的突破。

豐富合成語音的表現力:呵呵?呵呵!

相較於過去語音合成研究是針對文語轉換系統,且只能解決以某種朗讀風格將書面語言轉換成口語輸出的狀況,目前國內外的語音合成已經基本解決了不同年齡、性別特徵及語氣、語速的表現,但仍缺乏個人的感情色彩。特別是那些感嘆詞,比如「呵呵」「嘻嘻」等,不太自然,更不用說隨著網路語言的日益更新,「呵呵」的含義已經從表達喜悅演變成了嘲諷,輕蔑的語氣,如何把握時代賦予詞語的不同意義,也是人機交互在互聯網時代要解決的問題之一。

同時,隨著信息社會的需求發展,對人機交互提出了更高的要求,人機口語對話系統的研究也提到了日程上。即語音合成研究已開始從文字到語音的轉換階段向概念到語音的轉換階段發展。這不僅對語音合成技術提出了更高的要求,而且涉及到計算機語言生成,涉及人類大腦的高級神經活動。但就語音合成來說,仍是一個要豐富合成語音的表現力問題。

多語種文語合成 :你有freestyle嗎?

  不同民族有自己不同的語言,不同語言之間的交流在今天開放的信息社會和網路時代顯得十分重要,多語種的文語合成有著獨特的應用價值。例如在自動電話翻譯,有聲的電子郵件等中都提出多語種的合成,即使是對漢語合成也有多方言文語轉換的需求。

理想的多語種合成系統最好是各種語言共用一種合成演算法或語音合成器,但是現有的語音合成系統大多是針對某一種語言或若干種語言開發出來的,所採用的演算法及規則都是和某種語言密切相關的,因此很難推廣到其他的語種。

例如漢語就和西方語言有很大的差異,國內的系統都是做漢語文語轉換,它的一套韻律控制規則完全不適合於英語,而且主要是合成漢語普通話,即使推廣到廣東話和上海話都有相當的難度。可見要真正解決多語種的文語合成,從文本處理到語音合成都必須有新的思路

推薦閱讀:

相關文章