如何看搜狗发布唇语识别技术？

在前段时间的世界互联网大会上，搜狗发布了这一项「唇语识别」技术。所谓的唇语识别，就是通过图像识别说话者的口型，转写出所说的内容。据搜狗方面表示，搜狗的唇语识别技术目前在开放的口语测试级上可以达到50%-60%的准确率，在限定场景中可以达到90%。这个数字对于现阶段的唇语识别技术而言，是不错的水准，但对于商用尚欠火候。

能读唇语这件事在武侠小说或者影视剧里已经屡见不鲜，但在现实生活中即使是人类唇语专家也只有12.4%的识别率。所以，随著人工智慧的发展，这两年才在尝试让机器去识别唇语这一项技术。2016年，谷歌与牛津大学的深度学习组就曾联合开发唇语识别技术，也让让唇语识别取得了突破。当时的识别准确率能达46.8%，远远高于人类唇语专家。

今年5月，贵阳数博会——国内首个大数据主题博览会上，天津海云数据也发布了类似的唇语识别技术。据了解，唇语识别技术是海云数据近半年来，推出的最新技术成果。目前，海云数据唇语识别技术的中文准确率已达到71%，英文准确率高达80%。虽然距离投入实战尚有一段距离，但已经处于国际领先水平。

无论是谷歌还是搜狗，他们的实践都证明唇语识别作为一项重要的人工智慧技术，其应用场景极为广泛。牛津大学唇语技术研究团队的Yannis Assael接受媒体采访时表示，这一技术不仅有著前沿的技术意义，也具备著难以估量的商业可能，从军事到公益，从支付到智能家庭，众多行业都会因这项技术发生改变。而从行业内部看，这些提前进入唇语识别研究的公司与团队，将有更大的机会筑起属于自己的技术壁垒，这相当于为他们的商业版图打下了一个坚实的基础。

媒体训练营推测，唇语最刚需的场景或为安防部门，还有助残上面，甚至对一些早期陌生的电影，以前的默片都没有配音，就像卓别林的很多的电影没有声音，如果能给其配上字幕也是很新颖的尝试。当然，随著科技的发展，未来的智能机器人、家居等等场景，都可以与这项技术结合起来，将会有很多商业价值可挖掘。

在唇语识别的研究上，谷歌取得了突破。唇语识别到底是什么？简单来说就是通过图像识别口型，转写出所说的内容。AI社长觉得，还是有好处的。

说起阅读唇语这事，在AI社长印象中，以前大多是小说里武侠和特工的特异功能啊~现在，要用机器来解决这个问题了，那就意味著它是真的有商业空间的，让人们有大规模应用，最后做成产品。

据AI社长了解，到目前为止，它的落地场景主要有两种，一个是目前主要用于监控简单的行为；一个是作为辅助技术，提升语音识别的准确率。但是，还是会存在这样或那样的问题，其中，要想提升语音识别的准确率就需要对噪音进行降低处理，可以通过硬体方式做音频信号的增强，屏蔽噪音，也可以通过唇语识别提供的视觉信息。

还了解到，现阶段最大的困难是泛化性。搜狗语音交互中心技术总监陈伟表示，早前的数据是从网上的新闻类节目爬取来的，筛讯出来的也都是类似主持人这一标准的，这些都是经过标准训练的人群，唇型的发音是标准的，但是，很多普通人发音是不标准的，识别准确率就会大打折扣。后期，搜狗团队也针对这个问题去录制了很多的普通人的数据，加进来以后，在普通人的泛化性上得到很大的提升。

AI社长希望未来唇语识别能够越来越成熟，可以用在帮助残疾人、安防等多个方面上，在车载、家居、机器人在多个场景都可以和唇语识别进行相结合。