在前段时间的世界互联网大会上,搜狗发布了这一项「唇语识别」技术。所谓的唇语识别,就是通过图像识别说话者的口型,转写出所说的内容。据搜狗方面表示,搜狗的唇语识别技术目前在开放的口语测试级上可以达到50%-60%的准确率,在限定场景中可以达到90%。这个数字对于现阶段的唇语识别技术而言,是不错的水准,但对于商用尚欠火候。

能读唇语这件事在武侠小说或者影视剧里已经屡见不鲜,但在现实生活中即使是人类唇语专家也只有12.4%的识别率。所以,随著人工智慧的发展,这两年才在尝试让机器去识别唇语这一项技术。2016年,谷歌与牛津大学的深度学习组就曾联合开发唇语识别技术,也让让唇语识别取得了突破。当时的识别准确率能达46.8%,远远高于人类唇语专家。

今年5月,贵阳数博会——国内首个大数据主题博览会上,天津海云数据也发布了类似的唇语识别技术。据了解, 唇语识别技术是海云数据近半年来,推出的最新技术成果。目前,海云数据唇语识别技术的中文准确率已达到71%,英文准确率高达80%。虽然距离投入实战尚有一段距离,但已经处于国际领先水平。

无论是谷歌还是搜狗,他们的实践都证明唇语识别作为一项重要的人工智慧技术,其应用场景极为广泛。牛津大学唇语技术研究团队的Yannis Assael接受媒体采访时表示,这一技术不仅有著前沿的技术意义,也具备著难以估量的商业可能,从军事到公益,从支付到智能家庭,众多行业都会因这项技术发生改变。而从行业内部看,这些提前进入唇语识别研究的公司与团队,将有更大的机会筑起属于自己的技术壁垒,这相当于为他们的商业版图打下了一个坚实的基础。

媒体训练营推测,唇语最刚需的场景或为安防部门,还有助残上面,甚至对一些早期陌生的电影,以前的默片都没有配音,就像卓别林的很多的电影没有声音,如果能给其配上字幕也是很新颖的尝试。当然,随著科技的发展,未来的智能机器人、家居等等场景,都可以与这项技术结合起来,将会有很多商业价值可挖掘。


在唇语识别的研究上,谷歌取得了突破。唇语识别到底是什么?简单来说就是通过图像识别口型,转写出所说的内容。AI社长觉得,还是有好处的。

说起阅读唇语这事,在AI社长印象中,以前大多是小说里武侠和特工的特异功能啊~现在,要用机器来解决这个问题了,那就意味著它是真的有商业空间的,让人们有大规模应用,最后做成产品。

据AI社长了解,到目前为止,它的落地场景主要有两种,一个是目前主要用于监控简单的行为;一个是作为辅助技术,提升语音识别的准确率。但是,还是会存在这样或那样的问题,其中,要想提升语音识别的准确率就需要对噪音进行降低处理,可以通过硬体方式做音频信号的增强,屏蔽噪音,也可以通过唇语识别提供的视觉信息。

还了解到,现阶段最大的困难是泛化性。搜狗语音交互中心技术总监陈伟表示,早前的数据是从网上的新闻类节目爬取来的,筛讯出来的也都是类似主持人这一标准的,这些都是经过标准训练的人群,唇型的发音是标准的,但是,很多普通人发音是不标准的,识别准确率就会大打折扣。后期,搜狗团队也针对这个问题去录制了很多的普通人的数据,加进来以后,在普通人的泛化性上得到很大的提升。

AI社长希望未来唇语识别能够越来越成熟,可以用在帮助残疾人、安防等多个方面上,在车载、家居、机器人在多个场景都可以和唇语识别进行相结合。


推荐阅读:
相关文章