寫在前面:

這是《沸騰新十年》的第十一篇劇透文,也是2019年的第一篇劇透文,從確認選題到採編到反覆修改,這篇稿子操作時間前後歷經近半年。究其原因,主要是這個江湖歷史更久遠,中國科技日新月異,這也是左林右狸將這次寫科技史的時間拉在近10年內的原因,而語音的產業化歷經了20年的沉澱,在這20年中有太多的風流人物和精彩故事我們想要講述,這樣的野心以至於讓文章的框架拉得越來越大。

從2018年8月份開始,左林右狸拜訪和研究了近百家語音企業和學術機構,我們發現語音在產業化時歷經了三個時代,PC時代、移動互聯網時代和AIoT時代,在每個時代語音都出現過高潮,也出現了新的機會和新一批的創業者。最終我們還是以產業化最久也是語音第一股的科大訊飛爲主線,描述了在這三個時代中它得到了怎樣的機會和麪臨的挑戰。

本文作者金紅是沸騰新十年裏新智造和AI+多個賽道的主筆,也是《無人機江湖和汪滔的前半生》一文作者。金紅也在操刀《大國智造》一書,歡迎各界人士和她聊天。

巢湖半湯溫泉,中國四大名泉之一,位於安徽巢湖市東北部的湯山腳下,因一熱一冷兩大溫泉匯聚而成冷熱各半的自然景觀而得名爲半湯。

2000年的秋冬之際,CEO劉慶峯帶着科大訊飛最開始的近20名幹將從科大訊飛所在城市合肥驅車一小時抵達半湯,召開爲期兩天的年度會議,這被稱爲科大訊飛公司歷史上著名的半湯會議。

半湯會議持續了兩天,因爲公司財務情況已經見衰,有人提出把公司解散了,有人說用科大的招牌和政府的支持炒房地產賺錢,十幾個人各抒己見,各方意見始終未能統一,最後劉慶峯直接拍板:繼續做語音,誰不樂意,直接走人。

這不是劉慶峯關於科大訊飛做出的第一個重要決定,之前的1999年6月,他也在衆多選擇中選擇了堅持向前走的決定。

時間回溯到1999年6月,對於劉慶峯來說,當時擺在他面前的有三個選擇:一是走學術路線出國讀博,已經有學校願意提供幾萬美元的獎學金;二是接受剛剛組建微軟亞洲研究院的李開復提供的微軟獎學金,到微軟實習一個月,作爲日後投身產業界、進入微軟這樣的大公司的跳板;三是帶領實驗室的師兄弟們,一起做一番事業。

在這三條路中,劉慶峯選擇的是看起來難度最大的一條,他放棄了出國讀博的打算,婉拒了李開復的邀請,提出了一邊攻讀博士、一邊創業的想法,在得到導師的首肯之後,劉慶峯以實驗室爲班底,成立了安徽硅谷天音信息科技有限公司,半年後,公司改名爲科大訊飛。

科大訊飛早期創業團隊

回顧這一足以改寫今日中國語音產業江湖市場格局的選擇,我們便會發現劉慶峯在當時做出的決定並非偶然。當時劉慶峯擔任福建中銀集團與中科大建立的聯合實驗室、中文語音合成第一個產業化的實體中銀天鷹智能多媒體實驗室的總工程師,和師兄弟一起開始爲中銀集團提供技術支持。在摸着石頭過河,將語音合成產業化的過程中,劉慶峯發現做產品與做技術有很大不同,做產品是需要迎合市場需求,但當時市場上並不確定需要語音做什麼。中銀集團有很多想法,今天想搞個語音PDA,明天又想做個語音聽寫軟件,後天又搞工商查詢系統,搞得團隊疲憊不堪。兄弟們受不了,便找到劉慶峯說,要麼你出來當CEO,要麼我們就解散。

劉慶峯的博士生導師也對他說,這個事情可以成,這麼多優秀的年輕人能團結在一起,在科大的歷史上還從來沒有過,要是解散就太可惜了。

劉慶峯的導師王仁華是國內語音合成領域研究的泰斗,在當時的語音界有南北“二王”之稱,其中南王指的就是中科大王仁華,王仁華最開始也擔任科大訊飛的董事長,但並非大股東,他的股份遠比劉慶峯少,甚至一半都沒有,這在當時蠻匪夷所思的,今天也不少人難以理解,但正是王仁華的高風亮節成就了科大訊飛今天的輝煌,王仁華與劉慶峯模式也成爲中國高校企業科技創新的重要模式創新,之後李澤湘與汪滔、王田苗與高祿峯都遵循這個模式。

王仁華從1967年開始任教於中國科學技術大學電子工程與信息科學系,長期從事人機語音通信,數字信號處理,多媒體通信方面的科研和教學工作,其研究的LPC語音合成技術在1985年獲中國科學院科技進步三等獎,在語音合成方向多次獲國家科技獎。科大訊飛的前十年,其業務也是基於語音合成技術。

王仁華(中)和科大訊飛團隊

語音合成,又稱文語轉換(TTS,Text to Speech)技術,是用人工的方式模擬人聲,從而將任意文字信息轉化爲語音。1939年,貝爾實驗室H· 杜德利(H . Dudley)利用共振峯原理製作的語音合成器是歷史上第一臺電子合成器;1960年,瑞典語言學家G.Fant提出用線性預測編碼(LPC)作爲語音合成分析技術,推動了語音合成的發展;1980年,D·克拉特(D. Klatt)設計出串/並聯混合型共振峯合成器,已經可以模擬不同的嗓音;20世紀90年代,隨着計算和存儲能力大幅度提升,基於大語料庫的單元挑選與波形拼接合成方法出現,可以合成出高質量的自然人語音。王仁華正是這個時間開始深耕語音合成領域。

1993年,在中科大召開的全國語音識別與合成研討會上,王仁華教授提出了試用播音員錄音的基因片段加處理的方法獲得了當時863專家組負責智能接口的專家高文的首肯,並撥給20萬元進行研究,在此之後,王仁華教授的課題獲得了863計劃的滾動支持。

多說一句,王仁華教授在1993年訪問美國麻省理工學院(MIT)時,當時在MIT任職的也是中科大校友的鄧力招待過他的訪問並交流了不少語音技術問題。而高文也在1992年在MIT計算機系做過訪問學者,這個世界不大。

而1992年考入中科大的劉慶峯因爲成績優異,在大一就被王仁華看中吸收入人機語音通信實驗室參與了相關863項目,1995年也就是劉慶峯大三那年起擔任語音合成項目的負責人。1995年和1997年,中科大在863專家組主持的文語轉換系統評測和中期檢查中獲得多項第一,劉慶峯均參與其中;1998年,劉慶峯帶隊參加了在北京的863語音合成評測,這一次中科大在評測中獲得了3分(5分是播音員水準,4分是普通人發音表現,而3分則是勉強可以接受的),這是當時語音合成獲得最高的分數,“唯一達到了可實用階段”。

隨後在1998年8月的“國家火炬計劃十週年成就暨高新技術產品博覽會”中,中科大的語音合成系統被選爲唯一的軟件標誌性產品而列在特展位上;1998年12月,在新加坡舉行的國際漢語口語處理研討會(ISCSL)上,中科大的KD語音合成系統被與會各國專家高度評價,劉慶峯介紹KD系統的論文也獲得了大會的最佳學生論文獎(有意思的是,鄧力當時是ISCSL的創始人之一,他向劉慶峯發了最佳學生論文獎)。不難想象,1999年的劉慶峯正是春風得意時,這時候的他更希望做的是能改變世界的大事。

一方面是國外的博士和微軟獎學金,另一方面是7年順風順水的研究和導師的勉勵、師兄弟們的期盼,選擇創業也就順理成章了。就這樣,中科大、安徽省經貿委出資,劉慶峯也出了十萬元,再和17個兄弟們一人湊了點錢,以300萬元將原來賣給中銀集團的技術買回,成立了科大訊飛的前身硅谷天音。雖然此前實驗室已經拿到了不少的榮譽,但畢竟沒有市場化的產品,因此初創之時的硅谷天音仍然將主要精力放在語音合成引擎的開發上,有了這款引擎,纔好去談投資和商務合作。

在研發過程中,科大訊飛遭遇了第一次資金短缺問題,每個月花的錢比掙的錢多,賬面上的資金越來越少。劉慶峯的壓力很大,劉慶峯他開始找投資方,但並不順利。

此時,另一家語音企業金耳麥被當時與Nuance齊名的Infotalk(以語音識別和語音搜索技術見長,2005年被賣給了新加坡的Creative公司)高價收購。金耳麥由沈康麒於1999年創立,由於研發出中文語音識別算法,在成立8個月即被Infotalk收購,沈康麒本人也進入新公司擔任高管。沈康麒兜兜轉轉一圈後重新回到語音產業江湖,他現在是車載語音服務平臺公司車音網的CEO。語音識別當時在中國還比較少應用在產業中,而科大訊飛當時也只是有語音合成技術,語音識別技術是從國外語音技術提供商Nuance採購的。看到金耳麥被收購,劉慶峯幾次北上北京與沈康麒商議Infotalk收購科大訊飛的可能性。沈康麒非常看好兩家公司的互補性,遂向公司建議收購科大訊飛。可惜的是,Infotalk最後並沒有選擇科大訊飛,而是收購了另外一家境外公司。

被Infotalk放棄後,劉慶峯不氣餒的繼續尋求融資機會。好不容易有人有投資意向,不過他們卻都不希望科大訊飛繼續待在偏遠的合肥,而應該去北京或上海。

合肥市時任市長車俊聽到這一消息,嚇了一跳。雖然合肥有中科大,但當時正是中國通信行業發展高峯期,培養的人才被華爲、中興都包攬去了,留在合肥的少得可憐。如果科大訊飛這時候再轉移陣地,那就真的留不住人了。

要想把科大訊飛留在合肥,只有解決了他們的資金問題。於是在1999年底,車俊將合肥美菱股份有限公司、合肥永信信息產業有限公司以及安徽省信託投資公司的負責人帶到科大訊飛的辦公室,爲其展示了語音合成技術。會後,三家企業分別出資1000萬投資科大訊飛,各佔17%。科大訊飛的資金危機暫時解除了,也如車俊所願留在了合肥,自此也開啓了科大訊飛與合肥政府之間20年緊密的聯繫。

3000萬資金到位後,劉慶峯和兄弟們準備大幹一場。當時電腦剛開始進入許多中國家庭,很多用戶根本不會操作,科大訊飛看準了這個“痛點”,推出了第一款產品“暢言2000”。這是一款基於IBM研發的語音識別系統ViaVoice研發的中文語音系統,用上了科大訊飛多年來語音合成領域的技術積累,定價一千多元,功能上相當於電腦上的Siri,藉助語音方便電腦操作,還打出了“會說話就會用電腦”的廣告。劉慶峯將銷售渠道鋪到了全國10多個省,他們甚至預想了產品熱銷的豐滿夢想,但由於語音輸入和控制並非硬需求,大多數人還是更習慣於使用鍵盤和鼠標,加之價格太高,暢言2000幾乎無人問津,科大訊飛也由此虧掉兩千多萬。

由於暢言2000的失利,科大訊飛再次陷入了資金缺失的困境,也讓團隊開始懷疑語音產業的未來。痛定思痛,劉慶峯把隊伍拉到了巢湖半湯溫泉,希望在這樣一個放鬆的環境下,想清楚自己能夠做什麼。

今天覆盤,劉慶峯當時之所以如此堅持,是他知道還未到窮途末路的時候,雖然ToC市場出師不利,但在ToB市場,基於語音合成技術,公司還有數十家企業的訂單,他覺得重整山河發力ToB市場,勝負依然爲未可知。

1999年10月在中國國際高新技術成果交易會上,華爲的一名員工對科大訊飛的語音合成技術很感興趣,並邀請其團隊到華爲在蛇口的辦公室做深入交談。科大訊飛總工程師陳濤帶領團隊在華爲住了一個多月,最終通過了華爲的測試。

2000年初華爲與科大訊飛簽訂了供貨商協議,購買語音合成技術。此時,中國電信的168電話信息平臺開始鋪向全國,涉及到大量的客服工作,語音合成技術有望能解決這個問題,繼華爲之後,在當年年底中興、鑫泰、神州數碼等50多家企業都與科大訊飛簽訂了合同。

當然,客服語音技術還是很複雜的,不是把語音轉化成文本就可以了。當時,科大訊飛做的只是語音轉接,即直接對着電話說找某個人,通過識別出人名而在事先獲取的通訊錄信息中進行搜索匹配從而將電話轉接到該人的電話線。這涉及到信息數據問題。因爲早期數據還比較少,因此客服語音技術也只是在少範圍內使用。

在半湯會議明確了發展方向後,劉慶峯編寫了一份“未來發展規劃”,繼續尋找投資,他們很快遇到了聯想創投。

這份規劃書在聯想創投眼中“還有些稚嫩”,但在柳傳志和劉慶峯談了兩個多小時後,柳傳志就確定了“這家公司一定要投”,並將聯想創投將第一個投資名額給了科大訊飛。

聯想之後,復星集團和英特爾也選擇投資了科大訊飛。不同的是,聯想的300萬美元是以增資的方式真金白銀的給到了科大訊飛,而復星集團和英特爾則是從安徽信託、美菱集團、合肥永信三家第一輪投資人手中買的老股。

雖然拿到了投資,但科大訊飛的經營狀況並沒有馬上改善。直到2004年聯想創投的一次投資項目總結會上,科大訊飛還被當作不賺錢的反面教材。

轉機出現在2004年。科大訊飛的誕生是基於863計劃支持下的項目技術產業化,從一開始就得到了政府的資助與支持,科大訊飛也一直是安徽省政府和科技部等部委眼中的好學生:2000年6月,科大訊飛被科技部認定爲國家863計劃成果產業化基地,2002年,以中科大爲第一完成單位的“KD系列漢語文語轉換系統”被評爲國家科技進步二等獎,是政府和相關部門眼中的“好學生”,而在最後,仍然是政府拯救了它。

2004年,時任教育部副部長的袁貴仁到科大訊飛視察,提出將訊飛的語音識別技術應用於普通話考試,這對當時的科大訊飛可謂量身定做,天下掉餡餅樣的好事。自此,訊飛以普通話測評切入智能教育。在這一年,科大訊飛終於扭虧爲盈。

接下來的一年科大訊飛繼續被幸運眷顧。2005年彩鈴從韓國引進中國,受到消費者的熱烈追捧。但令運營商困擾的是,電話只能通過按鍵選擇1至9之間的9首彩鈴。語音成爲解決這個問題的最優選擇之一。

不過,要做這個事情,得有比較成熟的語音識別技術,這個在當時並非科大訊飛的專長,語音識別當時國內的正規軍和排頭兵是中科信利。

有意思的是,在投資科大訊飛之前,聯想還對比考察了中科信利。中科信利的強項在語音分類與檢索技術和語音識別,是曾任英特爾中國研究中心主任、首席研究員的顏永紅他麾下的英特爾中國研究中心語音部的幾名研究員回到中科院聲學所時在組建中科信利語音實驗室的同時成立的企業,方便對實驗室的研究成果進行商業運作。應該說中科信利與科大訊飛各有特色,在二選一中,柳傳志因爲劉慶峯描繪的場景而投資了科大訊飛,而中科信利也很快成爲當時科大訊飛最大的競爭對手。

左林右狸團隊拜訪中科信利聯合創始人趙慶衛

幾乎在科大訊飛承接安徽聯通彩鈴業務的同時,中科信利也承接了中國移動的IVR(互動式語音應答)業務,並在2005-2007年成爲中國移動的IVR業務合作伙伴。

於公於私,中科信利很難把語音識別技術給對手科大訊飛。

科大訊飛想到的辦法是借雞生蛋,他們找上了全球語音巨頭Nuance,成爲Nuance的代理,但爲了更好的拓展市場,科大訊飛採取與Nuance建立聯合實驗室的方式曲線入局。

得到Nuance的助力,科大訊飛開發了一套可以讓消費者使用語音選擇彩鈴的系統“聲動炫鈴”。這套系統被迅速從安徽聯通推廣到聯通總部,中國電信、中國移動開通彩鈴業務後也選擇了這套系統。基於此,科大訊飛進一步探索了個性化彩鈴、愛吼網等產品,當時聯通的音樂、彩鈴相關語音業務平臺幾乎都由其包攬。

憑藉上述業務和收入,科大訊飛開始了連續3年淨利潤130%的複合增長。2007年營收突破2億元。2008年5月12日,科大訊飛成功登陸深交所,成爲中國第一個由在校大學生創業的上市公司,也是中國語音產業至今唯一的上市公司。

科大訊飛在深交所敲鐘

科大訊飛一上市受到諸多熱捧,一是發行市盈率爲29.98倍,接近當時證監會允許的30倍的最高上限;二是首次發行超額認購倍數卻高達2313倍,中籤率低至0.04%。

一片歡欣鼓舞之下,劉慶峯還是保持了冷靜。當時的局面是,語音合成是科大訊飛的強項,佔據了語音合成70%以上的市場份額;而語音識別相對較弱,在識別類電信級語音平臺產品更是需要向Nuance公司購買語音識別授權,嚴重影響了該業務的毛利率進而影響整個公司的收益。很顯然,劉慶峯得建立起屬於科大訊飛自己的語音識別研發力量,而要單開語音識別這條線,劉慶峯得先找一個業務帶頭人,劉慶峯想到了胡鬱。

劉慶峯和胡鬱兩個人都是宣城同鄉,劉慶峯報考高考志願是找胡鬱父親給的建議,兩人是世交。劉慶峯是以高於清華錄取線40多分的成績考的中科大,也是那年1990年宣城理科狀元,胡鬱是1995年進中科大的,他是1995年宣城理科狀元,科大訊飛還有一位宣城人,胡國平,科大訊飛研究院的副院長,他也是1995年進中科大的,他是那一年的宣城理科榜眼。宣城離合肥不遠,當時沒有高鐵,但也是一天來回。

當時的一個契機是,胡鬱老婆在香港大學霍強教授處讀博士後,想讓胡鬱跟着去陪讀兩年,霍強教授也是王仁華的學生(1998年在日本京都ATR同當時在那做sabbatical語音研究的鄧力教授共事過),當時在語音識別領域已經形成自己的江湖地位,劉慶峯去找老師王仁華商量,王仁華給了一個建議,胡鬱在給老婆陪讀的同時給霍強做研究助理,藉此開始建立起科大訊飛在語音識別的班底。

2007年,霍強從香港大學轉去微軟亞洲研究院後,胡鬱又去找王仁華的另一個學生江輝合作,江輝也是科大訊飛創業18羅漢之一,是當時中科大BBS上黑客版的版主,比劉慶峯高三屆,因東京大學讀博士離開。江輝在東京大學得到博士之後,被當時在加拿大滑鐵盧大學任教的鄧力教授招去做博士後。後來經鄧力大力推薦江輝去了加拿大約克大學當教授,江輝今天是訊飛超腦計劃的組長。

在語音識別領域,科大訊飛與清華王作英實驗室也在合作,當時王作英實驗室與科大訊飛對接的是一位叫吳軍的人,對,就是寫出《浪潮之巔》等暢銷書的吳軍,吳軍今天是豐元資本的合夥人之一,也是著名的知識網紅,當時他是王作英老師的碩士研究生。

就這樣,胡鬱三箭齊發,開始逐步組建起科大訊飛在語音識別領域的團隊,但外界對科大訊飛的認知還是語音合成,胡鬱和他的團隊需要一次機會告知外界,科大訊飛不僅在語音合成上行,在語音識別上也行。

這個機會很快到來,就是由美國國家標準技術研究院舉辦的國際說話人識別評測大賽(NIST Speaker RecognitionEvaluation, NIST SRE)。2008年的NIST SRE評測提供了包含麥克風語音、電話語音等在內的不同來源的數據,再加上訓練集與數據集的排列組合,共計有13項評測,是歷年來評測組數最多的一屆。這也給了科大訊飛以突破的機會,所提交的USTC-iFly系統也獲得識別等錯誤率(EER)、最小檢測代價(minDCF)兩項第一名和檢測代價(DCF)第三名。爲此,科大訊飛在2008年6月5日特地發表公告報喜,稱“語音識別與語音合成核心技術的共同進步將對科大訊飛業務持續健康發展起到積極推動作用。”

但這只是科大訊飛語音識別業務的一小步——NIST SRE評測的內容是,給定目標說話人以及包含六個說話人的測試語音片段,識別目標說話人是否在測試語音片段中說話。這更多的反映的是代表說話人身份的相關特徵(如反映聲門開合頻率的基頻特徵、反映口腔大小形狀及聲道長度的頻譜特徵等)的語音信號提取能力,而非具體內容的識別。

此外,科大訊飛在NIST SRE評測所採取的GMM-UBM與GMM-SVM整合的模型在本次大賽中也被多家參賽機構使用。如科大訊飛的友商、背靠清華大學語音和語言技術中心的得意音通,在NISTSRE評測中採取的也是同樣的模型,科大訊飛雖然在模型構建、調參等細節上稍占上風,但大家基本在同一水平線上,並沒有拉開距離。

更困難的是語音識別技術在商業級別上的進一步應用:語音識別的主流方式是使用高斯混合模型(GMM)來建模,尤其以高斯混合模型+隱馬爾科夫模型(GMM-HMM)在很長時間內都是佔據壟斷地位的建模方式。李開復的成名作、基於統計學原理開發的第一個“非特定人連續語音識別系統”SPHINX,其核心框架就是GMM-HMM,其中GMM用來對語音的觀察概率進行建模,HMM則對語音的時序進行建模。Sphinx的出現打破了當時主流的“計算機難以有效識別連續的、不同口音的口語”的觀點,此後Sphinx開始顯示出一定的實用價值,也使得GMM-HMM成爲語音識別的主要方向。

GMM-HMM的優點是訓練速度快,可有效降低語音識別的錯誤率;聲學模型小,容易移植到嵌入式平臺中,但由於GMM沒有利用幀的上下文信息,不能學習深層非線性特徵變換,在實際的有噪音的商業級別應用中依然表現不佳,無法達到可用的級別。要想實現語音識別更廣泛的商用,必須採用與以往不同的技術。

鄧力(左)和何曉冬

在大洋彼岸,華人語音的大神級人物鄧力也在努力解決這一問題。在1994年,當鄧力在加拿大滑鐵盧大學任教時與其指導的一名博士在博士論文中提出了一種增強神經網絡記憶的新模型,但在效果上仍然無法超越其他統計學習方法。就連這篇論文的外部評審、大名鼎鼎的神經網絡之父GeoffreyHinton在看過這篇論文後都不得不承認,現階段想要在神經網絡方面有所突破實在太難。這使得鄧力在隨後的十餘年中遠離了神經網絡研究,而把精力放在GMM-HMM,貝葉斯統計方法和生成模型研究上。

但現在GMM-HMM在商業應用上陷入瓶頸,鄧力又想到了神經網絡,他重新研究了Geoffrey Hinton在2006年發表在《Science》的那篇劃時代論文《Reducingthe Dimensionality of Data with Neural Networks》, 於是他2009和2010年兩次邀請Hinton來到西雅圖的微軟雷德蒙研究院,看看如何將這篇文章提出的思路與其正在研究的深度Bayesian 語音識別模型結合起來。

值得一提的是,這篇論文“降維分層訓練”的觀點雖然今天看起來是理所當然,但在當時這篇論文看起來還是晦澀的,而且只有短短3頁紙,很多原理沒有細講,因而也存在着很多的爭議。直到2012年AlexNet在ImageNet上以巨大優勢奪冠,才興起了深度學習的浪潮,這是後話。

回到2009年底,在這一年的NIPS大會上,Hinton和鄧力、俞棟舉辦了一個Workshop,總結了深度學習各種不同的方法在語音識別上的應用。總體來說當時鄧力的研究有了一個階段性的結果,但所有的深度學習在語音識別的應用都是聚集在大概只有100萬幀左右的“小數據量”上,大規模的神經網絡威力還沒有顯示出來。

大幕即將拉起,只是你我渾然不知。

在中國的語音產業江湖裏,2010年是一個重要的年份。

在2010年2月和6月,鄧力作爲團隊經理正式招聘了兩位Hinton的研究生Abdo Mohamed和George Dahl分別加入微軟西雅圖研究院作爲實習生,研究人員開始探討如何利用深層神經網絡改善大詞彙量語音識別。Dahl在深層神經網絡訓練的豐富經驗對研究產生了很大的推動,負責該項目的鄧力和他手下的團隊幹將俞棟一道提出拋棄傳統的用英語的40個左右的基本音素建模的方法,而使用深層神經網絡,對一種比音素小很多、叫做senones的建模單元直接建模。senones的數量多達數千個,從音素到senones建模的要求自然高許多,如果做個類比,用senones建模大致相當於材料科學的納米技術,使得語音識別模型能夠更好地識別語音細節,從而提高了辨析的準確率。

隨後鄧力和俞棟將前饋神經網絡(FeedForward Deep Neural Network,FFDNN)引入到聲學模型建模中,將FFDNN的輸出層概率用於替換之前GMM-HMM中使用GMM計算的輸出概率,引領了DNN-HMM混合系統的風潮,並取得了很好的效果。這一系列研究結果的相關論文《Deepneural networks for acoustic modeling in speech recognition: The shared viewsof four research groups》於2012年發表,講述了深度神經網絡對語音識別產生的影響,怎麼把不同的機器學習方法,包括深度神經網絡的方法整合起來,使得大規模的語音識別得到進展,文章被引用約5200次,是語音識別領域中的經典論文之一。

對於這一改變語音識別業界格局的研究,科大訊飛成爲了微軟總部之外,第一批瞭解這一信息並着手這方面研究的團隊,甚至早於微軟亞洲研究院——2010年9月21日,鄧力受邀回到母校中科大並與科大訊飛交流,他與俞棟分享了將神經網絡應用於語音識別的最新成果。

而在這一年的10月,俞棟纔在微軟亞洲研究院聲學組的一次內部討論中提及使用深度神經網絡和senones建模的相關研究。

正是在這次內部討論中,微軟亞洲研究院聲學組的高級研究員Frank Seide意識到了這一研究的價值,他隨即加入該項目,與俞棟一起,兩支團隊精誠合作,推進該項目的研究。

Richard Rashid

在2012年微軟大老闆之一、負責全球技術的副總裁Richard Rashid在天津舉行的一次會議上當場演示用深度學習做語音識別,將英文識別後,用機器翻譯成中文,再用語音合成的方法產生中文語音——也就是說,他在上面講英文,觀衆可以直接聽到和他音色很像的中文——整場演示非常成功,幾乎沒有錯誤,這也引起了產業界的轟動,揭開了語音識別產業應用的新一頁。這也成爲紐約時報2012年10月份頭版頭條的一大新聞。紐約時報這篇文章的作者John Markoff親自飛到西雅圖的微軟採訪鄧力, 也採訪了Hinton。

這時鄧力正代表微軟同谷歌(代表人是Jeff Dean)和百度(代表人是餘凱)竟爭,用高價全職招聘Hinton,最終敗給谷歌(這其中故事多多,有興趣的讀者可以關注幾個月內鄧力將出版的一本新書,左林右狸頻道也會組織讀書會,敬請期待)。

Hinton雖然木有去成微軟,但與鄧力一直保持良好的私交,他在多次公開演講中高度評價他同鄧力的合作。在2013年5月Hinton即將開始到谷歌工作前夕,Hinton到溫哥華在由鄧力任大會主席,共3千人蔘加的IEEE-ICASSP語音國際大會上作了整一小時的主題演講。

2010年這一年,也是百度加入語音江湖的一年。2010年初,當時剛剛加入百度併爲其組建自然語言處理部的王海峯找到聲學所顏永紅的團隊,引進了聲學所的語音技術後,百度於當年2010年10月在掌上百度上推出語音搜索。

百度此舉是對谷歌的致敬和跟隨,2008年,谷歌重啓了6年前停止研發的語音項目。

谷歌最早在2002年着手開發語音搜索技術,但正如前面結果所證實的,PC時代網民還不習慣對着大屏幕進行語音交互,而智能手機的數量又比較少,因此語音搜索並無用武之地,谷歌也隨之停止這個項目的開發。

但6年之後的2008年,iPhone的走紅令谷歌意識到語音搜索的機會來臨了。谷歌決定重啓語音搜索開發項目,並首先針對iPhone推出了語音搜索應用程序,隨後又向谷歌Android和RIM黑莓智能手機用戶免費提供該應用程序。

谷歌的這一動作很自然而然引起了百度的注意,雖然此時谷歌已差不多在大陸無立足之地。

這一年的6月8日,蘋果發佈了擁有“100 多項創新設計”的經典產品iPhone 4,引發全球排隊購機熱潮。不過喬布斯不喜歡大屏,iPhone 4屏幕僅爲3.5英寸,用全鍵盤打字時存在不少困難。

既然用手指輸入文字體驗不好,可不可以用語音輸入?當時科大訊飛移動互聯事業部產品經理翟吉博,用了三天時間寫出一個Demo,後被公司討論後決定正式推向市場,迅速引爆市場,這讓科大訊飛上下歡欣鼓舞,也成爲年度的創新產品之一。

翟吉博之前在摩托羅拉工作,是葛勇的實習生。葛勇也是科大訊飛最早創業的18羅漢之一,2008年,恰逢摩托羅拉把語音部門賣給Nuance,葛勇帶翟吉博等一票人從摩托羅拉離開,胡鬱藉此把葛勇們找回來。和搜狗輸入法一樣,訊飛輸入法也是妙手偶得。

科大訊飛最開始有18個創始人,上市的時候有14人是一致行動人,這14人中有13人是最早參與創業的,離開的5個人裏,有前文提到的霍強和江輝,以及葛勇,另外兩人是吳義堅和賴偉,這兩人也是王仁華老師的博士生,今天是兒童機器人元趣公司的兩位創始人,元趣也是市場上爲數不多有自己語音合成和語音識別底層技術的公司,與之前他們超強的技術背景大有關聯。吳義堅是少年大學生,讀博士期間在科大訊飛幹活,活乾得很好,博士畢業的時候,科大訊飛想讓吳義堅留下來,但吳義堅選擇去了微軟。

吳義堅博士畢業照

雖然喬布斯不喜歡大屏,但他對於語音也同樣很感興趣。2010年初,一款名爲“Siri”的應用在Apple Store上線,這是一款虛擬助手,可以連接42個應用,而不用用戶多次打開應用。兩週後,喬布斯便給Siri的創始人AdamCheyer打電話,直接表達想要收購的意願。此時,Siri剛成功拿到B輪融資,而且與Verizon(美國最大的本地電話公司)簽訂了一份協議,在新的一年裏成爲其旗下所有Android手機的默認應用。但最終喬布斯的堅持還是打動了Adam,以2億美元身價被其收購。Siri也從Android默認應用跳到了iOS專屬應用陣營。

科大訊飛這一年發佈了訊飛語點和語音雲。2010年10月,科大訊飛推出集成了語音合成、語音搜索和語音聽寫等交互能力的“訊飛語音雲”平臺。

2010年是個分水嶺,這一年後,中國語音江湖開始熱鬧起來。

在語音識別技術因爲深度學習開始取得巨大突破後,工業界需要一個足夠流行有足夠多人用的產品來引爆之。

Siri成爲這個引爆點應運而生的時代寵兒。

2011年10月4日,在蘋果的發佈會上,Siri以語音助手的形式隨iPhone 4S發佈。一開始Siri是沒有聲音的,只是以文本形式推送答案,加入語音技術是喬布斯的主意。iPhone4S讓語音助手被大衆所認識,但發佈之時Siri沒有推出中文服務,這給了很多中國創業者遐想的空間。

智臻智能開始就此迅速轉身,智臻智能的創始人袁輝沒有看完喬布斯2011年的發佈會,就給他的合夥人朱頻頻打電話,感慨這不就是他們想做的事情。袁輝曾經在微軟工作過,他2001年創辦了智臻智能,朱頻頻則畢業於中科大,是劉慶峯的師弟。2004年,智臻智能在MSN上推出的聊天助手小i機器人曾風靡一時,並引進數千萬美元的風險投資進入。

2012年4月,小i機器人iOS版上線,在蘋果WWDC大會上發佈全新的iOS 6操作系統並在Siri中增加中文服務後,率先發起對Siri的侵權官司,袁輝和朱頻頻聯合創辦的智臻智能向上海一中院提起侵權訴訟,稱蘋果公司的語音助手Siri侵犯了它持有的“聊天機器人系統”專利權。此前智臻智能在2004年推出小i機器人之時,申請了一份名爲“一種聊天機器人系統”的專利,直到2009年7月22日獲準授權。智臻智能據此要求禁售所有裝載Siri功能的iPod、iPhone以及iPad產品。如今這場官司還在最高法院,也阻礙了Siri的入華之路。

2012年3月,科大訊飛上線了Android版的中文語音助手訊飛語點,只是iOS版在Apple Store上遲遲未能通過上線申請。到2013年1月,在刪減了包括語音撥號、發短信、搜索音樂以及設置提醒在內的多項實用功能後,訊飛語點終於在AppleStore上線。

左林大叔&胡鬱

胡鬱對左林右狸頻道說,訊飛語點是全球第二、中國第一的語音助手,言語中充滿了無比的驕傲。訊飛語點不僅讓科大訊飛的小夥伴們感到驕傲,更重要的讓科大訊飛的發展迎來一個新的臺階,那就是中國移動對科大訊飛的入股,這讓科大訊飛在之後的兩三年裏成爲中國最紅的科技股之一。

2011年年底,借中國移動在安徽開會,科大訊飛極力運作了時任中國移動CEO李躍到科大訊飛進行考察,就是這次考察中,訊飛語點成功的打動了李躍一行,此時在中國移動看來語音是一門大生意,可能改變移動互聯網的競爭格局。在中國,誰能讓機器更懂中文,成爲關鍵。

2012年8月,中國移動正式宣佈向科大訊飛注資13.6億元,成爲後者的第二大股東。中國移動以入股形式投資的企業並不多,在此之前只有香港鳳凰衛視和上海浦發銀行,科大訊飛是其投資的第一家技術型公司。

2012年12月5日,在中國移動全球開發者開會上,中國移動推出智能語音門戶產品“靈犀”。

中國移動想通過這款應用作爲入口級的產品,把音樂、12580、導航、視頻等業務一一對接,從而盤活中國移動的整個數據和業務。

中國移動一直是科大訊飛的核心客戶,也一直想抓住移動互聯網的入口,曾研發手機操作系統Ophone,推出移動通信飛信、搜索引擎“盤古搜索”等,但這些項目最後基本上都失敗了。2011年Siri推出後,中國移動想與蘋果合作搶佔中國移動互聯網市場未果後選擇了投資科大訊飛。

Siri令投資機構對語音市場的激情高漲,很多語音企業如思必馳、捷通華聲都是在創業多年後首次拿到融資。也是在這一年,劉慶峯喊出千億市值的口號。

這一年,也是百度加速進入語音行業的一年。李彥宏參加了內部一個關於深度學習的會議,會議結束後他非常喫驚,並給全公司寫信,讓所有產品經理都要了解人工智能技術的發展。

2012年11月,在王海峯推動下,由賈磊擔當的百度語音團隊上線了第一款基於DNN的漢語語音搜索系統,這讓百度成爲最早採用DNN技術進行商業語音服務的公司之一。

賈磊

賈磊也是中國語音江湖裏的重要變量,他師從中科院自動化所徐波所長,自動化所也是中國語音江湖的四大勢力之一(另外三是聲學所和二王),作爲百度語音首席架構師,在百度期間,賈磊先後帶隊完成了語音輸入法、語音搜索、智能手機語音助手等多個項目,並曾因爲其優異的工作表現受到內外部的無數獎勵,但在2016年卻悄然離開,而對應的吳恩達帶領團隊研發的深度語音識別系統DeepSpeech被美國某媒體評爲2016年十大突破技術之一,該技術也被應用在2016百度世界大會上發佈的百度語音輸入法。

賈磊離開百度與當時百度的首席科學家吳恩達關係頗大,種種信息表明,吳恩達與賈磊曾經上演過一山不容二虎的對決,正是吳恩達在2015年底直接找了李彥宏,讓李彥宏做出了吳恩達in,賈磊out的決定。而在這之前,吳恩達和賈磊都向鄧力請教過如何處理和調和他們對語音識別產品觀念上的巨大分岐,鄧力真是華人語音江湖的如來真佛和超級錦鯉啊。

百度在擊退谷歌後,其最大的競爭對手搜狗的語音研發之路也是在2012年開始的。在外部看來,語音是搜狗在搜索上擊敗百度的機會,但在王小川自己看來,語音是輸入法順延要做的事情,這位前信息奧賽金牌得主做任何事情,都強調順理成章,就像其覺得做翻譯棒是語音輸入法的延伸一樣。

王小川&左林大叔

2006年6月,搜狗輸入法正式推出,迅速擊敗紫光拼音、微軟拼音、智能ABC等輸入法,成爲全球第一大漢字輸入法。到2008年,搜狗輸入法的市場佔有率達到了40%。

2012年,察覺到語音的重要性後,搜狗也開始研發語音技術,並於兩年後爲搜狗輸入法引入語音搜索功能,又兩年後發佈語音交互引擎“知音”。

如今,搜狗、科大訊飛、百度輸入法成爲排名前三的中文輸入法,而語音則成爲排名的格局變量。

Siri也讓一些語音從業者看到了新時代的到來,萌生了創業的念頭。黃偉是其中的代表性人物,在Siri發佈後沒多久,也就是2012年春天,他從盛大創新院辭去了語音院院長的職位,創立了雲知聲。

黃偉同樣是中科大畢業,1994年入學,他的另外一個聯合創始人李霄寒也是中科大本科,1996年入學,好吧,如果一個語音團隊裏最核心成員裏沒有中科大的,那就請出門右拐吧。一開始黃偉並非學語音的,研究生讀的圖像,直到博士才轉做語音。

2004年黃偉博士畢業的時候,正好趕上第二次人工智能浪潮瀕臨破滅,很多人都轉行了,黃偉很幸運,他加入了摩托羅拉中國研究中心(MCRC)語音識別部門,主導開發出世界第一款手機聲紋認證系統,當時黃偉團隊7個人,共做了幾十款手機的語音識別,支持13國語音,這些手機在摩托羅拉的銷售量中,大概超過了2億臺。

黃偉學生時代,這張照片中除了雲知聲的兩個聯合創始人黃偉(後右二)和李霄寒(前中),還有計算機視覺獨角獸雲從的兩個創始人周曦(後右一)和姚志強(前左一)。

2008年在iPhone的變革下,摩托羅拉的手機業務備受打擊。摩托羅拉將手機部門賣給了谷歌,而爲手機而生的語音部門則被賣給了通過一路合併成爲全球語音最大市場佔有者Nuance。黃偉跟隨團隊去了Nuance,但Nuance的核心團隊在歐美,內心驕傲且年輕的黃偉希望能有更大的作爲。

這個時候,盛大創新研究院通過獵頭找到黃偉。

此時,由陳天橋在1999年創立的盛大的網遊業務達到頂點,陳天橋希望擴展到其他領域,由此創立了盛大創新院。盛大創新院由陳天橋胞弟陳大年一手負責,他親自招攬了廣大人才,並給予寬鬆的環境。其中,黃偉是陳大年找來負責語音研究的。

那個年代中國互聯網企業還處於草莽時期,與摩托羅拉這樣的外企在軟硬件上都有很大差距。黃偉一開始對中國互聯網企業並無多大興趣,而且陳大年比自己還小兩歲,這讓黃偉在見陳大年前心裏是無比抗拒的。但見完陳大年後黃偉卻當場答應加入,黃偉對左林右狸頻道說,陳大年身上有兩點特質,一個是人很友好,一個是頭腦聰明,這兩個特質打動了黃偉。

那個時候iPhone剛發佈也不過一年多時間,在國內智能手機的增長是在2008年底開始,基數也僅在百萬級別。而陳大年在此時和黃偉大談移動互聯網,令黃偉從內心對陳大年刮目相看。

2009年7月,黃偉正式加入盛大創新研究院,並組建語音團隊。

陳大年沒有給黃偉定什麼KPI,隨他和團隊怎麼折騰,語音合成、識別,語義識別等等,今天AI裏面跟語音相關的,那時候他們都做了,爲盛大積累了大量的語音基數及專利,其語音團隊在美國國家標準技術署(NIST)舉辦的聲紋識別評測(SRE)大賽中,力壓麻省理工、斯坦福研究中心、IBM等衆多名校、名企,在9個單項任務中獲得多個單項第一,整體綜合指標第一。黃偉也很早接觸到深度學習,他在2011年的interspeech會上和俞棟討論之後就開始着手做深度學習語音識別系統。

2013年初,雲知聲在創辦半年後馬上發佈了基於深度學習的微信語音輸入插件,將語音識別率提高到90%以上,並稱自己是中國第一個基於深度學習的語音識別系統,由此引發了與科大訊飛的口水戰,但同時引起了投資機構的關注,啓明的鄺子平最先找到黃偉,第二天就同意投資。同一時間,阿里巴巴想以6000萬美金收購雲知聲,和黃偉談判的是同樣被阿里收購的猛獁科技創始人如今Rokid創始人Misa(祝銘明)。

阿里時期的Misa

2013年5月10日,馬雲在黃龍體育場當着數萬員工宣佈不做CEO讓位給陸兆禧。雲知聲黃偉作爲觀禮嘉賓也在現場,他在黃龍體育場扯着嗓子給三位合夥人打電話,說阿里願意出價6000萬美金全資收購,他想徵求下三位合夥人意見,賣還是不賣。黃偉對左林右狸頻道說,如果合夥人願意賣他就賣,一圈電話下來,合夥人都說不賣,於是轉身拿了之前已經給了offer也見過大老闆鄺子平的啓明投資的錢。

雲知聲創始團隊,右三爲黃偉

也是2012年,在谷歌工作的李志飛看到了語音產業的創業機會,產生了回國創業的衝動。

李志飛曾在約翰霍普金斯大學攻讀博士學位時研究機器翻譯,開發的一個開源機器翻譯軟件Joshua曾經是世界學術界兩大主流機器翻譯軟件之一。畢業之後,李志飛加入谷歌總部擔任科學家,從事機器翻譯的研究和開發工作,其間主要開發了谷歌的手機離線翻譯系統。

李志飛博士畢業照

2012年10月,在拿到紅杉資本和真格基金的天使投資之後,李志飛從谷歌離職回國創業,帶着“谷歌研究院第一個回國創業的科學家”的頭銜以及雷欣等一批谷歌的同事,一起想在中國創立一個谷歌一樣的公司,打造下一代移動語音搜索產品。N年前在華僑城創意產業園在接受左林右狸頻道的採訪時,李志飛坦誠他最開始的創業目標就是做一家細分領域的Siri。各位鄰裏會問,李志飛和雷欣不是做語義的嗎,怎麼也跳進語音江湖裏?多說一句,李志飛和雷欣在美國讀博期間都被鄧力招聘過到他領導的微軟語音團隊做過實習生。這個世界不大。

喬布斯在Siri發佈的第二天溘然長逝,喬布斯去世後,Siri在蘋果內部也並沒有得到重視,兩個聯合創始人在Siri發佈後一年內先後離開,再次聯合創立了VivLabs,後在2016年以2億美金賣給了三星,成爲三星的手機助手。

Siri最終沒有大紅,當然有內部派系鬥爭的緣故,但歸根結底還是因爲這是一個超越時代的產品。雖然語音識別在此時已經有很大進展,但交互起來體驗感仍然只是勉強而已。可以說,如果不是蘋果,語音助手很有可能還需要一段時間纔會被大衆所熟知。

Siri雖然未成,但變相教育並統一了市場認知,那就是光靠語音識別,技術上再先進也無法商用,於是,在2014年這一年,整個工業界齊刷刷的從語音識別開始轉向語音交互以及認知計算,又回到ToB。

2014年這一年,微軟發佈了小冰,一個沒有語音交互功能但界面更友好,親和力更強的AI助手,雖然功能沒有小娜強大,但定位更清晰的小冰獲得了不比她姐姐少的關注。

2014年這一年,百度在谷歌推出谷歌大腦後很快宣佈了百度大腦計劃,而科大訊飛也緊跟步伐在當年年底的年度發佈會上宣佈正式啓動“訊飛超腦”計劃,希望研發出第一個中文認知智能計算引擎。

這些大腦計劃,與IBM Waston類似,後者是IBM研發的能夠使用自然語言來回答問題的人工智能系統,2011年該系統在美國的電視問答節目Jeopardy!(危險之旅!)上擊敗了兩名人類冠軍選手,從此一戰成名。

Waston參加Jeopardy!(危險之旅!)

Waston脫胎於語音識別系統ViaVoice,後者於1997年推出,是歷史上第一個連續聽寫產品,在當時引起了很大轟動,次年被評爲科技領域十大事件之一,亦促成了微軟、英特爾、摩托羅拉等在中國相繼成立研究院。Waston每秒可以處理500GB的數據,相當於1秒閱讀100萬本書。經過不斷的訓練,系統能夠具備數據整理和分析的能力。而這也意味着,這個系統可以接入任何需要智能計算的行業。

2014年這一年,IBM投資10億美元專門建立“Watson Group (沃森集團)”,對外提供認知解決服務方案,主要包括了Watson平臺、Watson醫療、Watson物聯網三大板塊。就在這一年,WatsonGroup爲IBM貢獻197億美元,成爲IBM五大業務收入板塊之中毛利最高的領域,在IBM總收入的佔比也逐年不斷上升。

科大訊飛也看好醫療,不過前有Watson,後者Nuance,都是自己的老大哥。科大訊飛還是將最大的資源投入到最爲公司賺錢的教育領域,此時正好遇到了在線教育的爆發。如今科大訊飛的教育產品包括課堂教學(在線課堂、暢言交互式多媒體教學系統、暢言智能語音等)、智能考試(標準考場、網上閱卷、招生考試、普通話測試、英語聽說測試等)、學習產品、教育評價、早教玩具(能力培養、趣味對話、故事機等)覆蓋從低到高各層面的產品組織。

同時,科大訊飛收購了很多家語音評測公司,包括啓明科技等,持續的投入和連續的收購讓科大訊飛在教育市場形成了壟斷,目前所有省份的口語評測用的幾乎都是科大訊飛的引擎。

也就是在2014年,思必馳痛下決心將負責教育行業的部門聲馳剝離,以9000萬賣給了網龍,自己則把精力收縮專注智能硬件和物聯網。

思必馳是畢業於劍橋大學的高始興和俞凱等人於2007年在英國劍橋創立的,次年攜團隊回國,早期注重教育市場,2009年研發出了全世界第一個中文發音作業系統。在語音識別技術上,就連胡鬱也承認,在深度學習浪潮出來之前,劍橋的語音識別技術是領先的。俞凱的老闆也是著名的語音公司VCallQ的創始人,該公司主要依託俞凱老闆實驗室的技術班底而成,俞凱本人在實驗室是主力之一。VCallQ在2016年賣給了蘋果,這是後話。

思必馳在2014年把教育業務剝離出去,一方面當然是因爲資源在教育領域是至關重要的,科大訊飛此時與政府的緊密關係令其輕鬆拿到市場的大半壁江山,甚至是壟斷。科大訊飛教育事業羣副總裁丁鵬曾就競爭優勢問題向媒體表示:就因爲我能做全國的市場,那麼安徽就會給我最大的支持;如果我能做全球的市場,那麼國家就會給我最大的支持。

另一方面,高始興和俞凱等人意識到,在教育領域雖然很難與科大訊飛抗衡,而語音可發揮的天地還很廣闊,特別是有交互場景的領域,而此時,語音識別開始往語音交互走也成爲思必馳團隊的一致認知。

認可語音識別會向語音交互走這一趨勢的還有阿里巴巴。

2014年這一年,阿里巴巴的語音部門IDST正式成立,即如今達摩院的前身,掌舵者爲初敏。初敏被稱爲“木蘭之母”,其在微軟創建並領導語音合成研究小組研製出了第一個中英文雙語語音合成系統“木蘭”,這是當時微軟唯一一個完全放在中國運營的業務。微軟曾經在美國啓動過語音合成相關技術的研究,但因成效不佳轉而選擇使用第三方的合成技術。正是由於初敏團隊效果喜人,微軟才決定自研。

左林右狸團隊拜訪初敏(中)

初敏在微軟做的“木蘭”,和科大訊飛當年獲得國家科技進步二等獎的“KD漢語文語轉換系統”有異曲同工之妙。初敏在中科院聲學所讀的博士,師從著名語言聲學研究專家呂士楠,和科大王仁華一樣,呂士楠也是參加863項目語音測評的常客,在幾個項目的評比中和科大訊飛互有勝負;在上個世紀90年代,呂士楠在漢語語音合成中,首次提出用“基音同步波形疊加技術”合成漢語,而王仁華在1993年得到863計劃的首筆資助時也正是在這個方向的研究打動了專家組,纔有了後來在1995年發佈的KD系統。

按初敏的話說,呂士楠的學術範更濃,而王仁華則是一個更有商業意識的人,這也是科大訊飛技術從產品轉化做得比較好的原因。呂士楠和王仁華兩個團隊的交流曾經非常密切,2000年科大訊飛拿到3000萬元投資後,劉慶峯也拿了一筆錢出來與清華、聲學所做聯合研究,如今日科大訊飛的執行總裁胡鬱,在當時就曾經在聲學所呂士楠的實驗室蹲點學習過。

聲學所的孫金坡老師曾經與劉慶峯一起參加了1998年的863語音合成的比賽,那次比賽,劉慶峯是第一名,孫金坡是第二名,比賽完後,劉慶峯找到孫金坡,說服孫金坡與其合作,一起做語音合成,他們合作後的語音合成方案也成爲中國最好的語音合成方案,劉慶峯請孫金坡以顧問的身份加入創始團隊,並送了孫金坡兩個點的股份,這部分股份在上市後也有千分之五左右,孫金坡據說也是聲學所乃至整個北京聲學圈子的首富,身家最多的時候有四五億人民幣。

2009年,初敏受此時她的前上司今天阿里巴巴首席架構師王堅邀請,加入阿里。初敏從微軟去阿里,一開始並非是奔着語音去的——在微軟亞洲研究院開發完“木蘭”系統的過程中,初敏注意可以接觸、收集的數據量迅速增長,如何對大規模數據進行挖掘、分析和再利用成爲了一個極富挑戰的研究難題。由於感覺自己把所有語音合成能玩的都玩得差不多了,2007年,初敏做了一個重要決定,從語音組轉到了以數據爲中心的計算組,開始了一段新的研究歷程,而初敏對雲計算背後的大數據應用非常感興趣,於是王堅去了阿里雲後,就跟着王堅去了剛成立的阿里雲。

2014年阿里正式成立語音部門IDST,初敏轉回語音方向,並開始組建語音團隊(初敏在微軟亞研的舊同事鄢志傑就是她這個時候找來的),爲Yun OS、支付寶、手機淘寶、釘釘等產品加入了語音交互能力。之後在2017年初敏在阿里萌生退意想換個環境,思必馳首席科學家俞凱聽說後,和創始人高始興三顧茅廬,最終說動初敏加入。

坊間曾經認爲,思必馳遊說初敏加入,看中的是初敏在阿里的背景,其實不然,思必馳與阿里合作的主要對口人是阿里語音的另一位女強人淺雪,初敏和淺雪在阿里語音體系裏一時瑜亮,各成體系,也屢有紛爭,思必馳邀請初敏加入,更多是兩位創始人和初敏在語音產業發展理念上有諸多共通之處,比如都認爲基於場景的語音交互會產生很多新的機會和孕育新的可能,都認爲與高校實驗室的緊密合作會形成源源不斷的創新能力(思必馳與上海交大的合作是科技企業與高校緊密合作的又一典範)。

相比阿里巴巴和思必馳,科大訊飛要激進不少,他們不僅僅認爲語音識別會向語音交互走,更重要的還會向認知計算走,這也是他們發佈訊飛超腦的原因所在。

通過訊飛超腦,科大訊飛形成縱橫戰略,科大訊飛將主要業務分爲八大部分,從最新的財務報表中營業額高低來劃分,包括教育領域、智慧城市、政法業務、開放平臺及消費者、汽車、智能業務以及其他。其中與政府關係密切的教育、智慧城市、政法位居前三,而汽車上升勢頭最爲迅猛。

當然,光靠領先的語音合成和語音識別技術,訊飛超腦還難以名副其實,訊飛超腦得整合包括人臉識別等技術提供給客戶。

這對科大訊飛不是什麼難事情,2014年科大訊飛在A股呼風喚雨,幾次定增也得到熱捧,有了資金後,除了在全國各地開設子公司,科大訊飛也開始自己做投資。科大訊飛的投資體系還包括安徽省訊飛產業投資有限責任公司,以及安徽省信息產業投資控股有限責任公司。其中,前者爲科大訊飛全資控股企業,後者爲國有控股的投資公司,科大訊飛作爲出資方參與其中,而二者的董事長均爲原科大訊飛副總裁、董事會祕書徐景明。科大訊飛的這三家企業投資了近70家企業,其中包括優必選、商湯科技、寒武紀等獨角獸,分別是服務機器人、人臉識別、AI芯片等領域的翹楚,也在多方面支持科大訊飛的生態。

這些獨角獸中商湯科技與科大訊飛的聯繫最爲緊密。商湯科技的創始成員大多來自港中大多媒體實驗室湯曉鷗教授團隊,湯曉鷗本人也是創始人之一。同時,湯曉鷗也是科大訊飛語音及語言信息處理國家工程實驗室技術委員會的副主任。

訊飛發佈超腦計劃,與劉慶峯從來不甘於讓科大訊飛只是做一個技術提供商的企圖心暗合,更有Nuance的前車之鑑。早科大訊飛7年成立,如今全球語音市場最大佔有者Nuance曾經是各大巨頭友好的合作伙伴,蘋果的Siri、亞馬遜的Alexa早期都使用過其技術,甚至科大訊飛早期是其中國代理商,如今各大巨頭均自主開發自己的語音技術,Nuance已被互聯網巨頭們拋棄,現只能專注於語音醫療領域偏安一隅,並且人才也被大量挖牆腳。

在中國,想只是靠提供技術而成爲一家大企業,更是妄談。這些年,科大訊飛也面臨類似Nuance同樣的局面,曾經的合作伙伴紛紛建立自己的語音團隊。而在醫療領域,國內還並未發展那麼快,而通過政府資源獲取的教育市場也終究還是格局略小了些。

因此,科大訊飛從來沒放棄做C端產品。

2014年這一年年底,科大訊飛做出新的組織結構調整,拆分成三個事業部,消費者事業部赫然在列,劉慶峯的親密戰友胡鬱又一次被推到前臺,擔任消費者事業部的負責人。

如前所言,語音的第二個高潮是iPhone掀起的,但就像當初PC時代一樣,Siri的後續發展並未達到預期,它只是作爲附屬品而不是必需品而存在,於是大家開始懷疑,是不是手機同樣並不是最好的語音交互設備。那麼,用戶用語音交互的終端設備到底是什麼呢?智能手錶、音箱等一大批面向C端的硬件產品開始粉墨登場,各家開始在嘗試,賭哪個形態的產品會成爲移動互聯網後下一個AIoT時代的開啓者。

最早開始這種嘗試的是出門問問。2012年回國創業時,李志飛從擅長的語音交互入手,爲其他產品提供適配方案,在這一時期,出門問問做出了針對GoogleGlass和Android Wear的中文智能語音交互應用,然而這些讓出門問問頗爲值得的技術方案只能用叫好不叫座來形容,無法讓普通用戶形成共鳴。

按李志飛接受左林右狸頻道採訪時所說的,如果出門問問繼續做AI解決方案公司固然很難死掉,但好死不如賴活着絕不是他想要的狀態。所以在創業兩年後,出門問問做了首次轉型,從純算法公司開始做軟硬件結合,併發布全球首款中文智能手錶操作系統TicWear,以替代國內功能不全的Google服務;半年後,又從軟件切入硬件,推出智能手錶TicWatch。李志飛和團隊沒有一個人懂硬件,正值諾基亞中國區大裁員,趕緊第一時間去搶了幾個硬件工程師。值得一提的是,2015年,谷歌投資了李志飛創辦的出門問問,並達成戰略合作關係,採用出門問問爲谷歌智能手錶操作系統WearOS(原Android Wear)提供中文語音助手。

左林大叔&李志飛

從此出門問問一發不可收拾地走上了硬件的不歸路,從智能手錶、汽車後視鏡、智能耳機,出門問問保持着一年推出一個新產品系列的節奏,不斷探索人工智能語音技術更適合的消費級應用場景。

其中,2016年立項並持續預熱的出門問問的智能音箱曾經被李志飛寄予厚望。也就是在2016年這一年,出門問問邀請到了2018年新晉IEEE Fellow 華人科學家黃美玉博士加入,幫助建立了MobvoiAI Lab,用三個月時間領導完成給臺灣遠傳電信的一整套本地化語音助手的開發。黃美玉師從美國卡耐基梅隆大學的Raj Reddy(1994年圖靈獎獲得者),跟李開復、洪小文、黃學東一個組,後加入微軟研究院,在微軟工作18年,參與bing機器翻譯以及cortana等產品研發,是微軟亞洲研究院語音識別和語義分析研究的主導者之一。

整個智能音箱的故事則要從亞馬遜說起。2014年11月7日,亞馬遜的先進技術研發部門Lab 126突然丟出了一款智能音箱Echo。或許是前一款產品FirePhone敗走麥城的陰影尚未散去,這款脫胎於Lab 126 Project C的產品發佈相當低調,不僅沒有舉辦一場單獨的發佈會,甚至沒有去蹭在4天后的雙十一召開的亞馬遜年度開發者大會Re:Invent2014的場子。但就是這款當初未被寄予厚望的產品在2015年6月正式發售後,當年出貨量達250萬臺。到2016年,Echo的出貨量更是達到520萬臺,擊敗傳統音箱巨頭Sonos,取得在線音箱份額第一的霸主地位,佔據了全球智能音箱88%的市場。

也就是2016年起,此前一直押注語音助手的各大巨頭也開始反應過來,紛紛推出智能音箱。2016年11月,谷歌推出GoogleHome,用了一個季度的時間,搶下全球智能音箱10%的份額;2017年6月,蘋果爲Siri找到一個安放的軀體,推出智能音箱HomePod。

而在國內,由於軟銀、富士康以及阿里巴巴三大巨頭押注的服務機器人Pepper上市後的表現大大低於市場預期,加上市面上一大堆和音箱外形功能一樣卻在講機器人故事的產品並沒有出現爆款,因此國內巨頭對智能音箱的態度不是很積極,除了一直將亞馬遜作爲對標對象的京東。

2015年3月,京東與科大訊飛成立合資公司靈隆,並在三個月後也就是2015年6月就推出智能音箱叮咚。

到2016年,Echo在市場上的驚豔表現讓更多國內互聯網公司加速在智能音箱市場的佈局,並且用價格戰的方式讓這場競爭變成只有巨頭纔有入場券的遊戲。

儘管BAT、小米、360等大公司在2016年就開始了智能音箱的項目討論和立項,但真正產品化的步伐要謹慎得多。2017年7月份,阿里和小米先後發佈了第一款智能音箱天貓精靈和小愛同學;2017年11月份,百度在自己的開發者大會上通過9個月前全資收購的初創公司渡鴉科技推出智能音箱ravenH,4個月後又與其投資的企業小魚在家聯合發佈小度在家智能視頻音箱,7個月後發佈首款自有品牌智能音箱小度,與渡鴉音箱1699元、小度在家699元相比,這款音箱價格低至89元;騰訊的步伐直到18年4月才姍姍來遲,推出了智能音箱聽聽。

何曉冬(左)和俞棟

相比之下,推出最早的叮咚算是起了個大早趕了個晚集,在佔據了先天優勢的情況下並沒有帶來像Echo一樣的市場效應。這讓京東對科大訊飛產生了質疑,於是開始自己研發語音技術,其中最標誌性的動作是招募美國微軟雷德蒙德研究院主任研究員、深度學習技術中心負責人何曉冬博士加入,何曉東博士也是鄧力團隊的核心成員之一(一段時間,何曉東與俞棟一起向鄧力彙報)。如今京東與科大訊飛的合資公司靈隆已宛若空殼,CEO魏強也於2018年11月初低調離職。當然,這並不意味着京東放棄了智能音箱的市場,而是會獨立研發。就在2018年12月4日,京東召開了IOT戰略發佈會,發佈兩款智能耳機、兩款智能音箱,以及智能家居套裝,語音交互完全由何曉冬團隊研發。

也就是說,在智能音箱這個事情上,科大訊飛起了個大早,趕了個晚集。這裏面原因很多,合資公司這樣的機制很難成事有其客觀原因,但更多還是在於ToC這個事情,2015-2016年的科大訊飛還沒有準備好,也沒有拼刺刀的心理建設。

在智能音箱這個市場上,2016年也有很多新生力量加入,其中最引人注目的是Misa。

2016年這一年,離開阿里兩年後的Misa發佈了蛋形機器人Rokid,殺入智能音箱這個江湖。Rokid可謂是含着金鑰匙而生的,聯合創始人是金山的前CFO,天使投資人裏有Misa的伯克利校友91前CEO JOE,有剛從阿里準備離職去IDG的樓軍,有他在阿里的老上級吳泳銘,還有線性資本的王淮。

Misa(C位)和團隊

Rokid 一亮相就得到小圈子的廣泛好評,不論產品設計和還是場景的考量都很見功夫,當然還讓人吐槽的是它的價格,但即便如此,1399的價格Rokid居然能出掉六位數的貨,還是讓人驚歎的。

有意思的是,2018年, Rokid不再對外公佈自己的音箱出貨量,公司的重點也轉變爲給其他音箱公司提供交互等方案提供上來,Misa用了賦能一詞描述他在智能音箱這個江湖的角色和定位。

Misa這樣的超級產品經理在音箱這個產品上的轉身和退讓也是中國智能音箱市場的一個真相,那就是在大公司戰略前面,產品很重要,但不是最重要的事情。

左林大叔&Misa

智能音箱大戰的邏輯在於,在語音的應用場景中,智能音箱所代表的家居場景是僅次於通訊的第二大市場,如果再進一步看,無論是可穿戴設備、機器人,還是智能音箱,巨頭爭奪的是背後的平臺控制權,在人工智能迅速發展的大背景下,語音平臺有機會成爲物聯網時代下新的“操作系統”,這也是爲何百度阿里以及小米在這個市場上血戰到底的原因所在。

在這樣的一個市場裏,其實就是寡頭的遊戲。

左林右狸頻道在採訪中被告知,在智能音箱以及更多的消費類產品市場上,科大訊飛的角色多少有些擰不清楚,一方面是裁判員,是很多公司的技術提供商,另一方面是運動員,跑步下場。這種既做裁判員又做運動員的雙重身份讓其進退維谷。

而隨着人工智能的爆發下,大企業紛紛自研語音技術,加上初創企業的出現,語音方案的選擇越來越多,科大訊飛開始逐步丟失了在價格和服務上的優勢。

在價格上,智能音箱市場競爭日趨激烈,目前出貨量大的都是走低成本產品市場,而科大訊飛的語音方案價格並不低,比如小米在做智能音箱之初找了科大訊飛,但科大訊飛要求一個音箱給10塊錢的技術授權費,這對於小米來說成本太高了,而百度的服務幾乎是免費;

在服務上,科大訊飛希望做生態,提供的都是通用方案,而不同的產品有不同的用戶人羣,比如音箱目前核心功能是播放音樂,那麼爲用戶提供好的音樂搜索服務是至關重要的,而兒童機器人注重教育,爲不同年齡層不同需求的小孩兒提供優質的人機交互尤爲關鍵。左林右狸頻道接觸過不少做這類產品的公司,大多數都從最開始選擇科大訊飛方案到如今做了其它選擇。

科大訊飛就像一棵樹,以語音技術爲根,在各個領域開枝散葉。語音的應用場景越多,對語音的技術要求也越細分,也給了初創企業機會,聲智科技便是其一。

2016年,在聲學所待了十幾年的陳孝良在看到人工智能的爆發和市場前景後下定決心出來創業。陳孝良清楚如今語音交互平臺方面巨頭的機會更大一些,因此他選擇了以語音交互的底層方案作爲突破口,着重解決遠場語音交互的前端標準化和通用性問題,也獲得了與巨頭合作的機會。如今,BATMH等均爲聲智科技合作對象,其中百度還成爲其投資方。2018年年底最新的消息是聲智科技獲得新的一輪融資,可喜可賀。

陳孝良在中科院聲學所彙報工作

搶科大訊飛飯喫的還有ROOBO。

ROOBO創始人劉穎博並非做技術出身,他畢業於北京交通大學會計專業。畢業後劉穎博創業做過一些互聯網項目,包括Koomail、食神搖搖。2014年,當劉穎博想再度創業時,他發現當初只要是個APP就有人投的時代已經過去,只能做硬件了。他找來了兩個朋友:前360手機助手、搜狗手機輸入法創始人尹方鳴,前360安全衛士負責人雷宇,幾個互聯網人開始做硬件。

ROOBO的定位是人工智能解決方案。最開始劉穎博沒想自己做硬件,他連模組是什麼都不懂。爲了驗證方案,ROOBO做了機器人布丁,一開始經人介紹他找到深圳一家做供應鏈的公司老闆,想讓對方負責ROOBO所有的供應鏈事項,但對方不認爲一羣互聯網人能做什麼硬件,沒答應。無奈之下,劉穎博只能自己組建團隊做硬件,從華爲挖了一批人。如今深圳的硬件團隊已經有近百人。

劉穎博帶隊殺回深圳

2018年7月,ROOBO在深圳舉辦了一場發佈會,會上劉穎博宣佈使用ROOBO平臺的機器人出貨量已經達500萬臺,提前完成了一年的出貨目標。對於這個結果,劉穎博也是沒想到的,他覺得很大原因是因爲當初被迫做硬件,從而讓團隊對於硬件的理解能更加深厚。

當然,內心流淌着互聯網基因的劉穎博還是更喜歡研究軟件部門,他希望在機器人交互上能有更多的摸索和玩法。而因爲做機器人人機交互解決方案,也讓ROOBO成爲科大訊飛的競爭對手之一。有意思的是,ROOBO初創的時候曾經找科大訊飛要過融資,還進入過科大訊飛多輪投委會,劉穎博也飛到合肥去朝聖過劉慶峯,但雙方最終沒有走到一起,一說是ROOBO要的金額過多,超過了科大訊飛的射程,另一說是科大訊飛當時在二選一中選了優必選。

從左至右爲雷宇、尹方鳴、胡鬱、劉穎博、於繼棟(科大訊飛雲平臺事業部總經理)

在科大訊飛起家的語音合成TTS領域,也遇到了獵戶的強力阻擊。

2016年9月,傅盛以個人身份投資成立了獵戶星空,2017年5月,傅盛推動獵豹給獵戶星空投了4000萬美金,把自己名下的大部分股份轉給了獵豹,對應換來了傅盛在獵豹的更多表決權,同時獵戶星空也演變成爲獵豹的控股子公司,傅盛藉此全面掌控了獵戶星空。

2018年3月,傅盛爲獵戶星空在水立方舉行了一場盛大發佈會,推出3款服務機器人、小豹音箱以及機械臂,併發布自主研發獵戶機器人平臺Orion OS。

傅盛成立獵戶星空,是想奔着做機器人去的,由此積累了諸多技術,但最多的是語音合成相關的技術積累,獵戶先後爲喜馬拉雅的小雅、小米的小愛同學、美的的小美以及華爲音箱等多款智能音箱提供語音合成技術,按照傅盛的說法,市場上30%的智能音箱都在用獵戶的TTS服務,刨除BAT都在用自己的TTS服務後,在這個細分市場上,獵戶確實壓科大訊飛一頭。在翻譯棒這個市場上,獵豹翻譯筆也與科大訊飛打起誰是第一的口水戰,還有搜狗以及準兒等多家公司,雖然量都不大,但這個領域木有巨頭進入,更多是拼產品和服務,還算良性。

傅盛&左林大叔

更多語音公司在汽車這個領域與科大訊飛短兵相接。

2017年4月,大衆汽車集團(中國)宣佈與出門問問成立一家合資公司,其中大衆汽車集團(中國)將投資1.8億美金,用於支持雙方在智能出行領域的業務合作以及出門問問未來的發展。

在智能可穿戴、智能家居硬件產品之外,車載設備也是出門問問將人工智能應用落地的場景之一。2016年11月22 日,出門問問舉行以“智駕新鏡界”爲主題的冬季新品發佈會,發佈車載機器人問問魔鏡TicMirror和ADAS高級駕駛輔助系統問問魔眼TicEye。在與大衆汽車集團(中國)成立合資公司後,這些車載產品將由合資公司進行後續的開發和運營。2018年,出門問問僅用一年通過了車規級前裝語音測試,躋身車載前裝語音交互第一梯隊。而這些技術成果已落地出門問問與大衆旗下的合資公司。目前,合資公司提供的語音與車內互聯繫統已被納入江淮大衆的一款新能源電動汽車前裝中,合資公司還與賽德西威聯合打造併發布了智能車機產品。

2018年9月19日,雲知聲與吉利集團旗下億咖通科技(ECARX)宣佈共同出資成立一家合資公司,開展面向汽車前裝市場的車規級AI芯片研發,合資公司落地合肥高新區。

思必馳目前主要是靠車蘿蔔搶佔後裝市場,在前裝市場則選擇了奇點汽車、小鵬汽車等互聯網汽車品牌進行合作。阿里是思必馳的投資方,這樣的佈局也在情理之中。

關於市場佔有率,思必馳和雲知聲也都宣稱自己在後裝市場佔有70%。由於重點業務的高度重疊,雙方多次在朋友圈掐架。

雲知聲和思必馳另一個步伐一致的是AI芯片。這一次雲知聲要搶先一步,在2018年5月就發佈了面向物聯網的AI系列芯片UniOne以及第一代芯片“雨燕”。思必馳則是在2018年6月宣佈融資消息時透露AI語音芯片將在下半年流片。

思必馳在2018年12月13日公佈要開芯片發佈會,雲知聲在2018年12月21日公佈要開芯片發佈會。2019年1月4號思必馳開發佈會,而云知聲在1月2日搶先召開了發佈會,這一動作挺耐人尋味的,難怪思必馳的市場人員在和左林右狸頻道聊天時不禁感慨,“挺心疼他們的市場人員的”。

AI芯片被認爲是搶佔市場的關鍵。除了雲知聲和思必馳,出門問問也在2018年5月發佈了已經量產的AI語音芯片模組“問芯”,Rokid也有自己的語音芯片。

黃偉&左林大叔

而據左林右狸頻道獲悉,中科信利也在計劃與外部企業合作推出AI芯片。中科信利面臨着科大訊飛同樣的問題,隨着BAT等企業都組建自己的語音實驗室,漸漸失去了技術優勢,目前業務還是以國家信息安全以及客服爲主。中科信利聯合創始人趙慶衛向左林右狸頻道表示,目前他們也在計劃引入外部資本,將企業資本化從而尋求長期發展。

科大訊飛倒很決絕的不做AI芯片,這很大原因在於,科大訊飛的ToB服務更多是高舉高打,而不像思必馳雲知聲這樣要能提供幫助客戶能解決問題的從雲到端再到芯片模組的一整套解決方案。

在車載市場科大訊飛動得也很早,2013年,在奔馳公司組織的全球中文語音識別系統測試中科大訊飛榮獲第一的成績,也成爲科大訊飛進軍車載市場的契機。

如今,科大訊飛在汽車領域的產品包括三種:車載智能語音助手小飛魚、向車機供應商提供的語音技術解決方案,直接向車企提供整個車機系統。目前在第二種產品即後裝產品的落地上,科大訊飛的語音技術在200多款車型累計1000萬輛車上應用。但在第三種的前裝市場上,目前並未看到科大訊飛比較好的成績。不過,科大訊飛也在汽車領域投入了400人,明顯也是相當卯足了勁。有意思的是,科大訊飛總裁胡鬱在接受左林右狸頻道採訪時表示稱,科大訊飛在整個車機語音市場佔80%。

好吧,肯定有人在說謊,只是誰是長鼻子的匹諾曹呢。

語音說到底是一種交互方式,就像Dos時代的鍵盤、Windows時代的鼠標、iPhone時代的觸摸屏,語音會不會成爲下一代人機交互的方式。誰也不知道答案,但這些人都堅信不疑,他們都期待開創一個新時代。

左林右狸頻道在北京地區繼續招聘主筆/記者,主要覆蓋企業服務/雲計算、互聯網工具/出海、電商、社交這四個具體方向;在深圳地區招聘社羣運營,負責各個賽道的讀者用戶的社羣運營如果你覺得自己熱愛並有興趣於這些崗位,我們將提供有競爭力的薪酬和整體的職業安排計劃,請聯繫左林右狸小二(leiphonelinli),備註【求職】。

徐易容向左,陳琪向右

《iPhone換代和越獄江湖》

《新車電商和李想李斌們的前半生》

《大搜車姚軍紅自述:我的偶像是喬峯》

《兩個李想和他的一個理想》

《遊戲直播江湖和虎牙鬥魚的前半生》

《瓜子楊浩湧向左,優信戴琨向右》

《吳曉波向左 羅振宇向右》

相關文章