如何看搜狗發布脣語識別技術？

在前段時間的世界互聯網大會上，搜狗發布了這一項「脣語識別」技術。所謂的脣語識別，就是通過圖像識別說話者的口型，轉寫出所說的內容。據搜狗方面表示，搜狗的脣語識別技術目前在開放的口語測試級上可以達到50%-60%的準確率，在限定場景中可以達到90%。這個數字對於現階段的脣語識別技術而言，是不錯的水準，但對於商用尚欠火候。

能讀脣語這件事在武俠小說或者影視劇裏已經屢見不鮮，但在現實生活中即使是人類脣語專家也只有12.4%的識別率。所以，隨著人工智慧的發展，這兩年纔在嘗試讓機器去識別脣語這一項技術。2016年，谷歌與牛津大學的深度學習組就曾聯合開發脣語識別技術，也讓讓脣語識別取得了突破。當時的識別準確率能達46.8%，遠遠高於人類脣語專家。

今年5月，貴陽數博會——國內首個大數據主題博覽會上，天津海雲數據也發布了類似的脣語識別技術。據瞭解，脣語識別技術是海雲數據近半年來，推出的最新技術成果。目前，海雲數據脣語識別技術的中文準確率已達到71%，英文準確率高達80%。雖然距離投入實戰尚有一段距離，但已經處於國際領先水平。

無論是谷歌還是搜狗，他們的實踐都證明脣語識別作為一項重要的人工智慧技術，其應用場景極為廣泛。牛津大學脣語技術研究團隊的Yannis Assael接受媒體採訪時表示，這一技術不僅有著前沿的技術意義，也具備著難以估量的商業可能，從軍事到公益，從支付到智能家庭，眾多行業都會因這項技術發生改變。而從行業內部看，這些提前進入脣語識別研究的公司與團隊，將有更大的機會築起屬於自己的技術壁壘，這相當於為他們的商業版圖打下了一個堅實的基礎。

媒體訓練營推測，脣語最剛需的場景或為安防部門，還有助殘上面，甚至對一些早期陌生的電影，以前的默片都沒有配音，就像卓別林的很多的電影沒有聲音，如果能給其配上字幕也是很新穎的嘗試。當然，隨著科技的發展，未來的智能機器人、家居等等場景，都可以與這項技術結合起來，將會有很多商業價值可挖掘。

在脣語識別的研究上，谷歌取得了突破。脣語識別到底是什麼？簡單來說就是通過圖像識別口型，轉寫出所說的內容。AI社長覺得，還是有好處的。

說起閱讀脣語這事，在AI社長印象中，以前大多是小說裏武俠和特工的特異功能啊~現在，要用機器來解決這個問題了，那就意味著它是真的有商業空間的，讓人們有大規模應用，最後做成產品。

據AI社長瞭解，到目前為止，它的落地場景主要有兩種，一個是目前主要用於監控簡單的行為；一個是作為輔助技術，提升語音識別的準確率。但是，還是會存在這樣或那樣的問題，其中，要想提升語音識別的準確率就需要對噪音進行降低處理，可以通過硬體方式做音頻信號的增強，屏蔽噪音，也可以通過脣語識別提供的視覺信息。

還瞭解到，現階段最大的困難是泛化性。搜狗語音交互中心技術總監陳偉表示，早前的數據是從網上的新聞類節目爬取來的，篩訊出來的也都是類似主持人這一標準的，這些都是經過標準訓練的人羣，脣型的發音是標準的，但是，很多普通人發音是不標準的，識別準確率就會大打折扣。後期，搜狗團隊也針對這個問題去錄製了很多的普通人的數據，加進來以後，在普通人的泛化性上得到很大的提升。

AI社長希望未來脣語識別能夠越來越成熟，可以用在幫助殘疾人、安防等多個方面上，在車載、家居、機器人在多個場景都可以和脣語識別進行相結合。