大家好,現在已經到了2018年的年底了,作為一個語音識別行業內的工作者,我想寫一篇文字,來給大家演示一下,目前市面上各大"語音識別"引擎的實際識別效果,作為選擇參考。

一、識別引擎

1、捷通華聲(支持中文、英文、粵語)

2、雲知聲(支持中文)

3、百度(支持中文、英文、粵語)

4、科大訊飛(支持中文、英文、粵語、等十四種方言以上)

5、阿里雲(支持中文)

6、有道雲(支持中文以及英語)

二、測試項目

聲音內容涉及:時間、地區、常用語、人名、金額、新聞稿內容

1.近距離錄音測試(首先我們會準備一段對著手機以及錄音筆說話的清晰錄音,測試以上6款識別引擎識別的效果)

2.遠距離錄音測試(我們會準備二段錄音,分別距離為1米和3米,採用錄音筆以及手機進行錄音,並測試聲音識別情況,對比各家識別引擎的錯誤率)

3.新聞稿發音人聲音測試(採用標準發音,慢速測試每個識別引擎的識別情況,對比正確率)

三、測試參數

為了保證測試的公平性,所有測試錄音,統一轉換為

採樣率 :16000

編碼:16bit 位深的單聲道。

手機:Galaxys9+

錄音筆:新科V-19

語音識別軟體:錄音啦

錄音環境:室內會議室(無雜音)

語言類型:中文普通話

測試錄音文件下載:

luyinla.com/%E6%B5%8B%E

語音識別軟體下載:

https://www.luyinla.com/%E5%BD%95%E9%9F%B3%E5%95%A6V5.4%E9%80%9A%E7%94%A8%E7%89%88.zip?

www.luyinla.com

四、測試過程

測試距離1米遠錄音

測試距離3米遠錄音

一、手機錄音」近距離[演講稿]:

北京時間11月12日,2018-2019賽季短道速滑世界盃第二站在美國鹽湖城繼續進行,在男子500米比賽中武大靖以39秒505的成績奪冠,並打破自己在平昌冬奧會上創造的39秒584的世界紀錄。繼上周兩次登頂後,武大靖在500米項目上實現三連冠,成為該項目上當之無愧的霸主。

二、「手機錄音」識別引擎近距離[演講稿]識別結果

三、「手機錄音」1米遠距離錄音原文:

關於王總的商業報告書我看了,大家打開第九頁,文章中提到了「語音識別」行業的發展趨勢正在迅速發展,我希望大家能夠牢牢把握機會,爭取在2018年的年底,把11月份,12月份的資料。詳細的數據整理出來

四、「手機錄音」識別引擎1米遠錄音識別結果

五、「手機錄音」3米遠距離錄音原文:

2003年12月24日開工建設,2008年3月完工,總造價22.67億元。作為國家標誌性建築,2008年奧運會主體育場,國家體育場結構特點十分顯著。體育場為特級體育建築,大型體育場館。主體結構設計使用年限100年,耐火等級為一級,抗震設防烈度8度,地下工程防水等級1級。

六、「手機錄音」識別引擎3米遠錄音識別結果

七、錄音筆」近距離原文:

今天是2018年11月12日,我們在廣東省廣州市番禺區市橋街,小明將給大家介紹一下周杰倫演唱的歌曲,如「黑色毛衣」「七里香」等歌曲,都充滿了年輕人的回憶。

八、錄音筆」近距離識別結果:

九、錄音筆」3米距離[演講稿]

2003年12月24日開工建設,2008年3月完工,總造價22.67億元。作為國家標誌性建築,2008年奧運會主體育場,國家體育場結構特點十分顯著。體育場為特級體育建築,大型體育場館。主體結構設計使用年限100年,耐火等級為一級,抗震設防烈度8度,地下工程防水等級1級。

十、錄音筆」3米距離識別結果:

十一、得出對比圖以及結論

評分規則:

1.最佳得:3分

2.推薦得:2分

3.效果不理想得:1 分

總結:

1.在近距離的"手機"和"錄音筆"錄音中,各大識別引擎識別出來的文字效果都不錯,會存在部分錯別字,對於數字類的識別,推薦選用「雲知聲」,文字顯示的比較直觀,對於人名,歌曲名,捷通華聲、雲知聲、科大訊飛、阿里雲、有道雲的識別效果都非常不錯

2.錄音距離超過或者等於3米的,首選「雲知聲」識別引擎,丟字率比較低,識別的完整性較高

3.對比「手機」和「錄音筆」由於手機屬於近距離錄音設備,在對比三米錄音距離下,除了「雲知聲」其他的識別引擎文字丟失率比較嚴重。

4.對於近距離的錄音,每個識別引擎出來的文字相差不大

感謝您的閱讀,如果有什麼疑問或建議,歡迎在評論區評論……

推薦閱讀:

查看原文 >>
相关文章