小米的語音識別到底用的誰的技術？

手機上的輸入文字的功能，用過的一個非常好用的語音識別輸入文字的軟體。

操作的方法可以按照下面的步驟方法來進行轉換，簡單好用，輕鬆就能夠完成需要的文字輸入哦。

{!-- PGC_VIDEO:{"thumb_height": 360, "thumb_url": "2747d0009fce211513778", "vname": "", "vid": "v02019ca0000bk0uia6ue3mpd27ghrgg", "thumb_width": 640, "src_thumb_uri": "2747d0009fce211513778", "sp": "toutiao", "update_thumb_type": 1, "vposter": "http://p0.pstatp.com/origin/2747d0009fce211513778", "video_size": {"high": {"duration": 65.37, "h": 480, "subjective_score": 0, "w": 854, "file_size": 1640963}, "ultra": {"duration": 65.37, "h": 720, "subjective_score": 0, "w": 1280, "file_size": 2864813}, "normal": {"duration": 65.37, "h": 360, "subjective_score": 0, "w": 640, "file_size": 1268779}}, "md5": "a9e5e6f409d00e1578f7db75ed27b6e2", "duration": 65.37, "file_sign": "a9e5e6f409d00e1578f7db75ed27b6e2", "thumb_uri": "2747d0009fce211513778", "vu": "v02019ca0000bk0uia6ue3mpd27ghrgg"} --}

1）在應用市場找到這個工具將它安裝在手機之後在語音識別的頁面中選擇：錄音機，就可以錄製音頻了；

2）等待錄製結束，這裡我們需要將音頻文件保存一份，然後進入手機文件庫的頁面，找到錄製的音頻；

3）點擊右上角的轉文字字樣，就可以將錄製好的音頻文件轉換成文字了；

4）最後，我們同樣可以進入文字頁面，進行翻譯、複製、導出等操作。

怎麼將錄音轉成文字？在線語音轉文字、手機音頻轉文字看這裡

小米手機用的是科大訊飛語音引擎。在小米手機上打開語音識別，上面已有標示是科大訊飛的語音識別引擎！

在這裡，為大家介紹幾個常見的語音交互平臺，並作簡單的比較：

概述

最近做了兩個與語音識別相關的項目，兩個項目的主要任務雖然都是語音識別，或者更確切的說是關鍵字識別，但開發的平臺不同，一個是windows下的，另一個是android平臺的，於是也就選用了不同的語音識別平臺，前者選的是微軟的Speech API開發的，後者則選用的是CMU的pocketsphinx，本文主要將一些常見的語音交互平臺進行簡單的介紹和對比。

這裡所說的語音交互包含語音識別（Speech Recognition，SR，也稱為自動語音識別，Automatic Speech Recognition，ASR）和語音合成（Speech Synthesis，SS，也稱為Text-To-Speech，簡記為TTS）兩種技術，另外還會提到聲紋識別（Voice Print Recognition，簡記為VPR）技術。

語音識別技術是將計算機接收、識別和理解語音信號轉變為相應的文本文件或者命令的技術。它是一門涉及到語音語言學、信號處理、模式識別、概率論和資訊理論、發聲機理和聽覺機理、人工智慧的交叉學科。在語音識別系統的幫助下，即使用戶不懂電腦或者無法使用電腦，都可以通過語音識別系統對電腦進行操作。

語音合成，又稱文語轉換（Text to Speech）技術，能將任意文字信息實時轉化為標準流暢的語音朗讀出來，相當於給機器裝上了人工嘴巴。它涉及聲學、語言學、數字信號處理、計算機科學等多個學科技術，是中文信息處理領域的一項前沿技術，解決的主要問題就是如何將文字信息轉化為可聽的聲音信息，也即讓機器像人一樣開口說話。

下面按平臺是否開源來介紹幾種常見的語音交互平臺，關於語音識別和語音合成技術的相關原理請參見我接下來的其他文章。

商業化的語音交互平臺

1)微軟Speech API

微軟的Speech API（簡稱為SAPI）是微軟推出的包含語音識別（SR）和語音合成（SS）引擎的應用編程介面（API），在Windows下應用廣泛。目前，微軟已發布了多個SAPI版本（最新的是SAPI 5.4版），這些版本要麼作為於Speech SDK開發包發布，要麼直接被包含在windows 操作系統中發布。SAPI支持多種語言的識別和朗讀，包括英文、中文、日文等。SAPI的版本分為兩個家族，1-4為一個家族，這四個版本彼此相似，只是稍微添加了一些新的功能；第二個家族是SAPI5，這個系列的版本是全新的，與前四個版本截然不同。

最早的SAPI 1.0於1995年發布，支持Windows 95和Windows NT 3.51。這個版本的SAPI包含比較初級的直接語音識別和直接語音合成的API，應用程序可以直接控制識別或合成引擎，並簡化更高層次的語音命令和語音通話的API。SAPI3.0於97年發布，它添加了聽寫語音識別（非連續語音識別）和一些應用程序實例。98年微軟發布了SAPI4.0，這個版本不僅包含了核心的COM API，用C++類封裝，使得用C++來編程更容易，而且還有ActiveX控制項，這個控制項可以再VB中拖放。這個版本的SS引擎隨Windows2000一起發布，而SR引擎和SS引擎又一起以SDK的形式發布。

SAPI5.0 於2000年發布，新的版本將嚴格將應用與引擎分離的理念體現得更為充分，所有的調用都是通過動態調用sapi.dll來實現的，這樣做的目的是使得API更為引擎獨立化，防止應用依賴於某個具有特定特徵的引擎，這種改變也意圖通過將一些配置和初始化的代碼放到運行時來使得應用程序的開發更為容易。

2).IBM viaVoice

IBM是較早開始語音識別方面的研究的機構之一，早在20世紀50年代末期，IBM就開始了語音識別的研究，計算機被設計用來檢測特定的語言模式並得出聲音和它對應的文字之間的統計相關性。在1964年的世界博覽會上，IBM向世人展示了數字語音識別的「shoe box recognizer」。 1984年，IBM發布的語音識別系統在5000個辭彙量級上達到了95%的識別率。

1992年，IBM引入了它的第一個聽寫系統，稱為「IBM Speech Server Series (ISSS)」。1996年發布了新版的聽寫系統，成為「VoiceType3.0」，這是viaVoice的原型，這個版本的語音識別系統不需要訓練，可以實現孤立單詞的聽寫和連續命令的識別。VoiceType3.0支持Windows95系統，並被集成到了OS/2 WARP系統之中。與此同時，IBM還發布了世界上首個連續聽寫系統「MedSpeak Radiology」。最後，IBM及時的在假日購物季節發布了大眾化的實用的「VoiceType Simply Speaking」系統，它是世界上首個消費版的聽寫產品(the world』s first consumer dictation product).

1999年，IBM發布了VoiceType的一個免費版。2003年，IBM授權ScanSoft公司擁有基於ViaVoice的桌面產品的全球獨家經銷權，而ScanSoft公司擁有頗具競爭力的產品「Dragon NaturallySpeaking」。兩年後，ScanSoft與Nuance合併，並宣佈公司正式更名為Nuance Communications，Inc。現在很難找到IBM viaVoice SDK的下載地址了，它已淡出人們的視線，取而代之的是Nuance。

3）Nuance

Nuance通訊是一家跨國計算機軟體技術公司，總部設在美國馬薩諸塞州伯靈頓，主要提供語音和圖像方面的解決方案和應用。目前的業務集中在伺服器和嵌入式語音識別，電話轉向系統，自動電話目錄服務，醫療轉錄軟體與系統，光學字元識別軟體，和臺式機的成像軟體等。

Nuance語音技術除了語音識別技術外，還包擴語音合成、聲紋識別等技術。世界語音技術市場，有超過80%的語音識別是採用Nuance識別引擎技術，其名下有超過1000個專利技術，公司研發的語音產品可以支持超過50種語言，在全球擁有超過20億用戶。據傳，蘋果的iPhone 4S的Siri語音識別中應用了Nuance的語音識別服務。另外，據Nuance公司宣佈的重磅消息，其汽車級龍驅動器Dragon Drive將在新奧迪A3上提供一個免提通訊介面，可以實現信息的聽說獲取和傳遞。

Nuance Voice Platform(NVP)是Nuance公司推出的語音互聯網平臺。Nuance公司的NVP平臺由三個功能塊組成：Nuance Conversation Server 對話伺服器，Nuance Application Environment （NAE）應用環境及Nuance Management Station管理站。Nuance Conversation Server對話服務器包括了與Nuance語音識別模塊集成在一起的VoiceXML解釋器，文語轉換器（TTS）以及聲紋鑒別軟體。NAE應用環境包括繪圖式的開發工具，使得語音應用的設計變得和應用框架的設計一樣便利。Nuance Management Station管理站提供了非常強大的系統管理和分析能力，它們是為了滿足語音服務的獨特需要而設計的。

4）科大訊飛——訊飛語音

提到科大訊飛，大家都不陌生，其全稱是「安徽科大訊飛信息科技股份有限公司」，它的前身是安徽中科大訊飛信息科技有限公司，成立於99 年12月，07年變更為安徽科大訊飛信息科技股份有限公司，現在是一家專業從事智能語音及語音技術研究、軟體及晶元產品開發、語音信息服務的企業，在中國語音技術領域可謂獨佔鰲頭，在世界範圍內也具有相當的影響力。

科大訊飛作為中國最大的智能語音技術提供商，在智能語音技術領域有著長期的研究積累，並在中文語音合成、語音識別、口語評測等多項技術上擁有國際領先的成果。03年，科大訊飛獲迄今中國語音產業唯一的「國家科技進步獎（二等）」，05年獲中國信息產業自主創新最高榮譽「信息產業重大技術發明獎」。06年至11年，連續六屆英文語音合成國際大賽（Blizzard Challenge）榮獲第一名。08年獲國際說話人識別評測大賽（美國國家標準技術研究院—NIST 2008）桂冠，09年獲得國際語種識別評測大賽（NIST 2009）高難度混淆方言測試指標冠軍、通用測試指標亞軍。

科大訊飛提供語音識別、語音合成、聲紋識別等全方位的語音交互平臺。擁有自主知識產權的智能語音技術，科大訊飛已推出從大型電信級應用到小型嵌入式應用，從電信、金融等行業到企業和家庭用戶，從PC到手機到MP3/MP4/PMP和玩具，能夠滿足不同應用環境的多種產品，科大訊飛佔有中文語音技術市場60%以上市場份額，語音合成產品市場份額達到70%以上。

5）其他

其他的影響力較大商用語音交互平臺有谷歌的語音搜索（Google Voice Search），百度和搜狗的語音輸入法等等，這些平臺相對於以上的4個語音交互平臺，應用範圍相對較為侷限，影響力也沒有那麼強，這裡就不詳細介紹了。

小米的語音識別技術，依託的正是科大訊飛領先的語音識別SDK。訊飛是一家不會包裝的公司，但也正因為這份務實的精神，才能專註地在語音領域深耕細作十幾年。作為中國智能語音與人工智慧產業領導者，科大訊飛的語音合成、語音識別、口語評測、機器翻譯等智能語音與人工智慧核心技術代表了世界最高水平。在2010年，科大訊飛正式對外發布全球首個「訊飛語音雲」開放平臺。截止目前，訊飛開放平臺已為20萬+合作夥伴提供服務，覆蓋終端用戶數超過8億，日服務量達30億次。