在前段時間的世界互聯網大會上,搜狗發布了這一項「脣語識別」技術。所謂的脣語識別,就是通過圖像識別說話者的口型,轉寫出所說的內容。據搜狗方面表示,搜狗的脣語識別技術目前在開放的口語測試級上可以達到50%-60%的準確率,在限定場景中可以達到90%。這個數字對於現階段的脣語識別技術而言,是不錯的水準,但對於商用尚欠火候。

能讀脣語這件事在武俠小說或者影視劇裏已經屢見不鮮,但在現實生活中即使是人類脣語專家也只有12.4%的識別率。所以,隨著人工智慧的發展,這兩年纔在嘗試讓機器去識別脣語這一項技術。2016年,谷歌與牛津大學的深度學習組就曾聯合開發脣語識別技術,也讓讓脣語識別取得了突破。當時的識別準確率能達46.8%,遠遠高於人類脣語專家。

今年5月,貴陽數博會——國內首個大數據主題博覽會上,天津海雲數據也發布了類似的脣語識別技術。據瞭解, 脣語識別技術是海雲數據近半年來,推出的最新技術成果。目前,海雲數據脣語識別技術的中文準確率已達到71%,英文準確率高達80%。雖然距離投入實戰尚有一段距離,但已經處於國際領先水平。

無論是谷歌還是搜狗,他們的實踐都證明脣語識別作為一項重要的人工智慧技術,其應用場景極為廣泛。牛津大學脣語技術研究團隊的Yannis Assael接受媒體採訪時表示,這一技術不僅有著前沿的技術意義,也具備著難以估量的商業可能,從軍事到公益,從支付到智能家庭,眾多行業都會因這項技術發生改變。而從行業內部看,這些提前進入脣語識別研究的公司與團隊,將有更大的機會築起屬於自己的技術壁壘,這相當於為他們的商業版圖打下了一個堅實的基礎。

媒體訓練營推測,脣語最剛需的場景或為安防部門,還有助殘上面,甚至對一些早期陌生的電影,以前的默片都沒有配音,就像卓別林的很多的電影沒有聲音,如果能給其配上字幕也是很新穎的嘗試。當然,隨著科技的發展,未來的智能機器人、家居等等場景,都可以與這項技術結合起來,將會有很多商業價值可挖掘。


在脣語識別的研究上,谷歌取得了突破。脣語識別到底是什麼?簡單來說就是通過圖像識別口型,轉寫出所說的內容。AI社長覺得,還是有好處的。

說起閱讀脣語這事,在AI社長印象中,以前大多是小說裏武俠和特工的特異功能啊~現在,要用機器來解決這個問題了,那就意味著它是真的有商業空間的,讓人們有大規模應用,最後做成產品。

據AI社長瞭解,到目前為止,它的落地場景主要有兩種,一個是目前主要用於監控簡單的行為;一個是作為輔助技術,提升語音識別的準確率。但是,還是會存在這樣或那樣的問題,其中,要想提升語音識別的準確率就需要對噪音進行降低處理,可以通過硬體方式做音頻信號的增強,屏蔽噪音,也可以通過脣語識別提供的視覺信息。

還瞭解到,現階段最大的困難是泛化性。搜狗語音交互中心技術總監陳偉表示,早前的數據是從網上的新聞類節目爬取來的,篩訊出來的也都是類似主持人這一標準的,這些都是經過標準訓練的人羣,脣型的發音是標準的,但是,很多普通人發音是不標準的,識別準確率就會大打折扣。後期,搜狗團隊也針對這個問題去錄製了很多的普通人的數據,加進來以後,在普通人的泛化性上得到很大的提升。

AI社長希望未來脣語識別能夠越來越成熟,可以用在幫助殘疾人、安防等多個方面上,在車載、家居、機器人在多個場景都可以和脣語識別進行相結合。


推薦閱讀:
相關文章