语音合成技术中,不管是用拼接法还是参数法,都分别有其利弊。拼接法合成需要录制大量语音以保证覆盖率。参数法并不需要100%的覆盖率。但由于使用参数法输出的是用声码器合成的声音,免不了有缺失,听起来不自然。

在技术的发展下,目前语音合成的实现已经有了很大进步,语言交互的声音语调基本还算是人话,但还有很大的提升空间。

用户普遍还没有使用语音交互的习惯主要原因, 无非是语音表达还不够人性化,机械感满满。

在语音合成技术中,为了让语音助手更像人,还需要做出怎样的努力?

提高合成语音的自然度仍然是高性能文语转换的当务之急。

就汉语语音合成来说,目前在单字和片语一级上,合成语音的可懂度和自然度已基本解决,但是到长句子乃至篇章一级时其自然度问题就比较大。

基于语音资料库的语音合成方法有望进一步提高语音合成的自然度。 因为这是一种采用自然语音波形直接拼接的方法,进行拼接的语音单元是从一个预先录下的自然语音资料库中挑选出来的,因此有可能最大限度地保留语音的自然度。

但由此产生了一系列新的需要研究的问题,包括:如何确定语音合成的基元,根据什么准则去挑选合适的基元;韵律参数定量化问题,对资料库进行定标问题;以及如何将统计的方法和规则方法相结合使机器能自动发现和找出所需的语音单元,保证最高的合成语句自然度等等。

  无论用哪种合成方法,韵律规则的总结,特别是连续语音的韵律规则总结,尽可能将定性的规则描述定量化,对自然度始终有最重要的影响。还有前端文本处理, 对合成语音的自然度也具有举足轻重的影响, 完整全面的解决, 需要自然语言理解的突破。

丰富合成语音的表现力:呵呵?呵呵!

相较于过去语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口语输出的状况,目前国内外的语音合成已经基本解决了不同年龄、性别特征及语气、语速的表现,但仍缺乏个人的感情色彩。特别是那些感叹词,比如「呵呵」「嘻嘻」等,不太自然,更不用说随著网路语言的日益更新,「呵呵」的含义已经从表达喜悦演变成了嘲讽,轻蔑的语气,如何把握时代赋予词语的不同意义,也是人机交互在互联网时代要解决的问题之一。

同时,随著信息社会的需求发展,对人机交互提出了更高的要求,人机口语对话系统的研究也提到了日程上。即语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展。这不仅对语音合成技术提出了更高的要求,而且涉及到计算机语言生成,涉及人类大脑的高级神经活动。但就语音合成来说,仍是一个要丰富合成语音的表现力问题。

多语种文语合成 :你有freestyle吗?

  不同民族有自己不同的语言,不同语言之间的交流在今天开放的信息社会和网路时代显得十分重要,多语种的文语合成有著独特的应用价值。例如在自动电话翻译,有声的电子邮件等中都提出多语种的合成,即使是对汉语合成也有多方言文语转换的需求。

理想的多语种合成系统最好是各种语言共用一种合成演算法或语音合成器,但是现有的语音合成系统大多是针对某一种语言或若干种语言开发出来的,所采用的演算法及规则都是和某种语言密切相关的,因此很难推广到其他的语种。

例如汉语就和西方语言有很大的差异,国内的系统都是做汉语文语转换,它的一套韵律控制规则完全不适合于英语,而且主要是合成汉语普通话,即使推广到广东话和上海话都有相当的难度。可见要真正解决多语种的文语合成,从文本处理到语音合成都必须有新的思路

推荐阅读:

相关文章