2018年語音識別引擎測評
大家好,現在已經到了2018年的年底了,作為一個語音識別行業內的工作者,我想寫一篇文字,來給大家演示一下,目前市面上各大"語音識別"引擎的實際識別效果,作為選擇參考。
一、識別引擎
1、捷通華聲(支持中文、英文、粵語)
2、雲知聲(支持中文)
3、百度(支持中文、英文、粵語)
4、科大訊飛(支持中文、英文、粵語、等十四種方言以上)
5、阿里雲(支持中文)
6、有道雲(支持中文以及英語)
二、測試項目
聲音內容涉及:時間、地區、常用語、人名、金額、新聞稿內容
1.近距離錄音測試(首先我們會準備一段對著手機以及錄音筆說話的清晰錄音,測試以上6款識別引擎識別的效果)
2.遠距離錄音測試(我們會準備二段錄音,分別距離為1米和3米,採用錄音筆以及手機進行錄音,並測試聲音識別情況,對比各家識別引擎的錯誤率)
3.新聞稿發音人聲音測試(採用標準發音,慢速測試每個識別引擎的識別情況,對比正確率)
三、測試參數
為了保證測試的公平性,所有測試錄音,統一轉換為
採樣率 :16000
編碼:16bit 位深的單聲道。
手機:Galaxys9+
錄音筆:新科V-19
語音識別軟體:錄音啦
錄音環境:室內會議室(無雜音)
語言類型:中文普通話
測試錄音文件下載:
https://www.luyinla.com/%E6%B5%8B%E8%AF%95%E5%BD%95%E9%9F%B3.zip
語音識別軟體下載:
https://www.luyinla.com/%E5%BD%95%E9%9F%B3%E5%95%A6V5.4%E9%80%9A%E7%94%A8%E7%89%88.zip四、測試過程
一、手機錄音」近距離[演講稿]:
北京時間11月12日,2018-2019賽季短道速滑世界盃第二站在美國鹽湖城繼續進行,在男子500米比賽中武大靖以39秒505的成績奪冠,並打破自己在平昌冬奧會上創造的39秒584的世界紀錄。繼上周兩次登頂後,武大靖在500米項目上實現三連冠,成為該項目上當之無愧的霸主。
二、「手機錄音」識別引擎近距離[演講稿]識別結果
三、「手機錄音」1米遠距離錄音原文:
關於王總的商業報告書我看了,大家打開第九頁,文章中提到了「語音識別」行業的發展趨勢正在迅速發展,我希望大家能夠牢牢把握機會,爭取在2018年的年底,把11月份,12月份的資料。詳細的數據整理出來
四、「手機錄音」識別引擎1米遠錄音識別結果
五、「手機錄音」3米遠距離錄音原文:
2003年12月24日開工建設,2008年3月完工,總造價22.67億元。作為國家標誌性建築,2008年奧運會主體育場,國家體育場結構特點十分顯著。體育場為特級體育建築,大型體育場館。主體結構設計使用年限100年,耐火等級為一級,抗震設防烈度8度,地下工程防水等級1級。
六、「手機錄音」識別引擎3米遠錄音識別結果
七、錄音筆」近距離原文:
今天是2018年11月12日,我們在廣東省廣州市番禺區市橋街,小明將給大家介紹一下周杰倫演唱的歌曲,如「黑色毛衣」「七里香」等歌曲,都充滿了年輕人的回憶。
八、錄音筆」近距離識別結果:
九、錄音筆」3米距離[演講稿]:
2003年12月24日開工建設,2008年3月完工,總造價22.67億元。作為國家標誌性建築,2008年奧運會主體育場,國家體育場結構特點十分顯著。體育場為特級體育建築,大型體育場館。主體結構設計使用年限100年,耐火等級為一級,抗震設防烈度8度,地下工程防水等級1級。
十、錄音筆」3米距離識別結果:
十一、得出對比圖以及結論
評分規則:
1.最佳得:3分
2.推薦得:2分
3.效果不理想得:1 分
總結:
1.在近距離的"手機"和"錄音筆"錄音中,各大識別引擎識別出來的文字效果都不錯,會存在部分錯別字,對於數字類的識別,推薦選用「雲知聲」,文字顯示的比較直觀,對於人名,歌曲名,捷通華聲、雲知聲、科大訊飛、阿里雲、有道雲的識別效果都非常不錯
2.錄音距離超過或者等於3米的,首選「雲知聲」識別引擎,丟字率比較低,識別的完整性較高
3.對比「手機」和「錄音筆」由於手機屬於近距離錄音設備,在對比三米錄音距離下,除了「雲知聲」其他的識別引擎文字丟失率比較嚴重。
4.對於近距離的錄音,每個識別引擎出來的文字相差不大
感謝您的閱讀,如果有什麼疑問或建議,歡迎在評論區評論……
推薦閱讀: