这期公开课的主题,要从「科大讯飞」官方微博收到的一条@说起——

我们可以为听障人士设计一副智能眼镜,当人们说话时,通过语音识别,眼镜上会显示字幕

在感叹脑洞之大的同时,你是否有想过,真的能做出这样一副智能眼镜吗?

答案是:当然可以

不过,要打造这样一副眼镜,少不了的可是这个神兵利器——

本期AI公开课关键词:【语音转写】

1、与语音识别不得不说的那些事

说起语音转写,首先要提的就是语音识别。关于语音识别,AI公开课已经有不少相关的课程了,感兴趣的同学可以自行翻看我们之前的文章。语音识别根据任务的不同,则可以分为语音听写语音转写

相信大家小时候都有过「报听写」的经历,在学术界中,语音听写就像报听写一样,指的是实时的语音识别系统——把听到的内容「即时」写出来,而语音转写则是非实时的。

今天我们所说的语音转写,则是特指面向人人对话的语音识别系统,也是实时的哦,比如大家很熟悉的讯飞听见。

科大讯飞2018CES展位 讯飞听见实时转写+翻译

2、语音转写:想说爱你不容易!

试想听障人士戴上了这副专属眼镜,不论走在大街小巷,都可以自如地和对方交谈;但与此同时,谈话的环境可能非常嘈杂,谈话的对象也可能有著天南海北的口音,口语化的表达内容想要显示成通顺、易读的文字,可不是一件容易的事。

这些难题怎么解决呢?

-杂讯和远场:喧嚣的背景音、远距离的对话、回声……面对这些扰人的因素,工业界拿出的是多个麦克风组成的麦克风阵列,便于屏蔽反射和环境杂讯、提高语音识别的效果。除此之外,还需要深度学习的鼎力助阵,卷积神经网路(CNN)与「前馈」神经网路(DNN)都可以和麦克风阵列结合,进一步提高嘈杂、远场环境下的语音识别准确率。

-口语化:我们在自由对话时口语化的表达,与成文的书面语要求存在不同,这也让口语语言模型的建模面临很大的困难。因此,借用语音识别经典的处理杂讯问题的办法,在书面语的基础上引入倒装、语气词等现象,就可以生成口语化的「文本」了。

还有一个办法,就是我们人人都遇到过的「根据上下文理解」。根据语音识别的解码结果,自动进行关键信息的抽取,再进行语料的搜索和后处理,用解码结果和搜索到的语料形成特定语音相关的语言模型,也可以让口语化问题迎刃而解。

-转写文字处理:第三个技术难题是转写成文字的后处理。我们和别人对话时的许多语言都是无组织的,虽然现在的语音转写已经能达到很高的正确率,但这些无组织的语言记录下来,在阅读时还是有些奇怪。

与语文考试里写作文一样,语音转写在处理这个问题时会考虑「断句」、顺滑、标点、分段几个关键部分。断句就是将语音识别的内容自动切分成语句;顺滑则是去掉口语化的一些语气词、重复词等「小尾巴」;标点则是在断句的基础上帮助更好理解每一句话;完成了标点,分段就不再是难事了。

---------------这是未完待续分割线-----------

技术上的难题解决之后,完成这副眼镜还需要……?下期AI公开课将继续为你揭秘!

更多知识请翻看我们之前的文章啦~


推荐阅读:
相关文章