問題背景:我們有大量的自造特殊詞需要識別,但是把他們都加入語言模型,又會導致發音類似通用詞識別準確率下降,有什麼合理的方案可以解決此類問題?


可以adapt 語言模型的子模型嗎? 


幾種方案

  1. 定製垂直領域的專有語言模型,如果對於聲學有額外要求,再單說
  2. 定製熱詞表,現在一般各家廠商都支持針對某個具體服務上傳熱詞表,5-10分鐘後生效,提升對應詞表的識別率。適用於:熱詞表較多,實時性要求不高的場景。
  3. 實時Grammar詞表,類似於熱詞表,在單次語音請求中增加Grammar詞表,提升指定專有名詞的識別率。適用於:實時性要求高,熱詞表小,針對性強的場景。比如有屏的智能音箱,切換歌曲名詞,撥打用戶電話等等,應用能夠獲得交互的上下文,可以將歌曲名和人名作為Grammar詞表實時上傳給引擎,提升識別率。

JimmyChen:智能語音專題(三):泛語音識別?

zhuanlan.zhihu.com圖標


感謝邀請。

「但是把他們都加入語言模型,又會帶來新的識別問題」 這裡「新的識別問題」具體指的是什麼呢?

一般來說,專用名詞、生僻詞的識別,我們有兩個手段來解決:一個是熱詞,2000個詞以內;另外一個就是定製垂直領域,這樣可以囊括某個領域絕大部分的專用名詞,例如醫療、金融等等。

不知您指的是哪一種?

———以上回答來自科大訊飛水哥


如果特殊詞的語音人能夠識別出來是啥,那就肯定具有代表這個語音的特徵,而且可以作為典型特徵的特徵點。就比如人臉識別的時候,兩眼之間的距離和人的骨骼有關,不可能改變。識別方案的關鍵就是尋找這個語音的絕對特徵點!


可以嘗試用遷移學習的方式單獨建立自造特殊詞的識別吧


指定特殊識別場景


推薦閱讀:
相關文章