问题背景:我们有大量的自造特殊词需要识别,但是把他们都加入语言模型,又会导致发音类似通用词识别准确率下降,有什么合理的方案可以解决此类问题?


可以adapt 语言模型的子模型吗? 


几种方案

  1. 定制垂直领域的专有语言模型,如果对于声学有额外要求,再单说
  2. 定制热词表,现在一般各家厂商都支持针对某个具体服务上传热词表,5-10分钟后生效,提升对应词表的识别率。适用于:热词表较多,实时性要求不高的场景。
  3. 实时Grammar词表,类似于热词表,在单次语音请求中增加Grammar词表,提升指定专有名词的识别率。适用于:实时性要求高,热词表小,针对性强的场景。比如有屏的智能音箱,切换歌曲名词,拨打用户电话等等,应用能够获得交互的上下文,可以将歌曲名和人名作为Grammar词表实时上传给引擎,提升识别率。

JimmyChen:智能语音专题(三):泛语音识别?

zhuanlan.zhihu.com图标


感谢邀请。

「但是把他们都加入语言模型,又会带来新的识别问题」 这里「新的识别问题」具体指的是什么呢?

一般来说,专用名词、生僻词的识别,我们有两个手段来解决:一个是热词,2000个词以内;另外一个就是定制垂直领域,这样可以囊括某个领域绝大部分的专用名词,例如医疗、金融等等。

不知您指的是哪一种?

———以上回答来自科大讯飞水哥


如果特殊词的语音人能够识别出来是啥,那就肯定具有代表这个语音的特征,而且可以作为典型特征的特征点。就比如人脸识别的时候,两眼之间的距离和人的骨骼有关,不可能改变。识别方案的关键就是寻找这个语音的绝对特征点!


可以尝试用迁移学习的方式单独建立自造特殊词的识别吧


指定特殊识别场景


推荐阅读:
相关文章