机器真的能够理解语言吗

前言

新年伊始，崭新的一年又开始了，开工的第二天突然想从认知科学的角度找找灵感，我觉得我也是自作孽。这篇文章不是很深的大脑知识与神经网路的理论解析，我想谈的是神经网路与认知科学在近几年擦出的火花以及我个人从认知科学的理解中获得的一些灵感，最后，谈谈对未来方向的思考。

由于本人水平有限，欢迎大家友善批评讨论。

神经网路并不是对大脑的模拟

神经网路这个词看似与大脑有著很强的关联，但实际上，二者之间的关联并不如外行人所认为的那样深。我个人认为，目前神经网路并不是对大脑中神经元连接的模拟(大脑要远比现在的神经网路模型复杂的多)，二者之间的关系更像是飞机与鸟之间的关系。

人类从鸟身上获得灵感，然后掌握了飞行的原理，从而发明了飞机。但很明显的是，二者之间的不同点更多，比如动力系统，飞行翼等，这意味著我们没必要去完全的模拟生物的特性，因地适宜才是正道。

回到神经网路本身，其最初的灵感的确是源自于大脑的神经元连接，近年来，语音与图像领域的突破，证明了此法具有一定的可行性，接下来会详细讲述这一点。

总的来说，模仿不是模拟，电脑不是人脑 ... 那啥，两开花。

为什么说语音识别是简单的

这里的简单是相对于语言来说的，且是针对神经网路这个领域来说，各位语音的大佬不要 diss 我。

对于语音识别任务而言，其每个声信号对应一个词(或音素)，这种一对一的任务是比较简单的，这也是为什么传统的方法也能获得比较好的结果，但出于神经网路的拟合能力以及泛化能力的优秀，无疑更适合这种一对一的线性关系映射。

一个与语音识别任务鲜明的对比是机器翻译任务，对于机器翻译任务而言，其也是序列到序列的，但是由于语言的特殊性，不能形成一对一的关系，因此机器翻译要比语音识别任务难很多，直至目前，Google翻译的质量依旧是中学生水平。

目前语音识别的难点其实并不在于一对一的关系映射，而在于环境的复杂多样以及信号的预处理等。但即使如此，语音识别也已经进入了部分商用级别，真的是有点小羡慕啊。

卷积神经网路与视觉神经系统 [1]

目前，无论是在学术界还是工业界，图像方面的技术都慢慢趋向于成熟，有了一定的商业基础，各个细分领域的独角兽也纷纷脱颖而出。而反观自然语言处理，虽然2018年突破不断，但这也掩盖不了目前技术难以商用的尴尬现实，自然语言还需要较长一段时间的沉淀，哎，好怕找不到工作啊。

回到理论本身，卷积神经网路通过多层卷积和池化操作来学习图像在各个抽象层面上的特征，这与我们在认知图像时的分层抽象思想是一样的，先识别出物体的浅层特征如颜色，亮度，然后是边缘，直线等局部信息，接下来是轮廓灯较复杂的信息，然后再一层层的抽象，最终形成一个物体的概念。而视觉神经科学关于视觉机理的研究也证明了这一分层抽象理论的正确性[1] 。

从图像的突破证明，从大脑中获取一些灵感和思路对于神经网路是有很大的帮助的。

自然语言为何如此之难

纵观自然界，我们发现，所有的动物都能够处理图像信息，而语言是人类独一无二的特质。最直观的一点是，人类对于图像的处理是与生俱来的，但对语言，我们往往需要长达几年的时间学习。

从智能的角度来看，图像语音属于感知智能，语言属于认知智能，其在抽象层面，智能层面都要比图像，语音高一个级别。其实单纯从任务的角度来看，无论是语音还是图像，其主要的任务都是识别问题，而对于识别问题，只要能够抓住特征信息即可，而对于语言，其终极问题是理解，由于语言的复杂性，能否将语言问题表示为特征问题还是一个未知数。

一个鲜明的对比是文本分类任务与阅读理解任务，文本分类任务算是NLP中为数不多达到部分商用级别的任务，其本质就是基于特征的，我们通过关键字也能够获得不错的结果；而对比阅读理解任务，单纯从特征的角度出发是无法解决如此复杂的问题的。

从生物科学的角度来看[2]，语言中枢控制著人类对语言的活动，其中，最重要的是布洛卡氏区与韦尼克区。其中，布洛卡氏区主要负责的是我们组织语言的能力，而韦尼克区则是负责我们理解语言的能力。就以文本对话而言，整个过程大致是语言先通过视觉皮质转化为某种神经信号传入到韦尼克区使我们理解语言，然后理解后的信息经过弓状束传递到布洛卡氏区来组织语言，生成对话。

可惜的是，目前我们对语言中枢的原理依旧不清，很难为神经网路提供很大的帮助，如果说接下来自然语言处理发展的方向与脑的结构相似，原理接近的话，我们可以将此划分为三座大山：

语言的表示问题：语言在计算机中如何表示。
语言的理解问题：语言在计算机是如何被理解的，这也是阅读理解问题所要解决的问题。
语言的组织问题：语言的生成问题，这是文本生成任务所要解决的问题。

语言的表示问题 [3]

目前，在认知科学中单词的表征有一个核心的概念：心理词典-- 关于语义（单词的意义），句法（单词是如何组合成句子的）和词形信息（它们的拼写和发音模式）的心理存储器，有点类似于知识图谱，但目前这方面依旧处于假设之中。

回归到目前深度学习的研究中，词的表征学习一直是研究的热点，从Word2Vec ，Glove 到 ELMO ，Bert，词的表征已经发生了翻天覆地的变化，且Bert的诞生更是有著颠覆性意义，但很难说接下来会不会有更好的模型诞生。

如果从认知科学的角度出发来构建词的表征，那么 Bert 有可能不是正解，或许以后的发展是知识图谱 + 预训练语言模型，以此来解决，常识，推理，关系等复杂问题。

值得一提的是，在神经系统中，对于书面语言有一个很庞大的大脑皮质层来对语言触发，这意味著可能一个比 Bert 大的多的网路才是正解。

最后，Bert一出，真的是，牛逼啊，不得不感慨，Google 真的厉害。

语言的理解问题

首先提一点，现有的理解并不是真正的理解 。目前在阅读理解领域，其主流数据集如 SQUAD 并不能很好的评估理解能力，我觉得其更多评估的是检索能力，不过这种检索更加模糊和精确，与传统的检索方式有很大的不同。我反而觉得类似高考中英文的阅读理解（RACE数据集）或者是中文的阅读理解（难度更大）才能真正体现机器阅读理解的冰山一角。

对于阅读理解问题来说，目前还没有很好的方案，随著 Bert 的出现，表示问题得到进一步的解决，接下来的重点或许就要解析理解问题了。

目前一方面是数据集的问题并没有得到很好的解决，SQUAD已经可以看到并不是理解的终点，我个人认为 中文的阅读理解 才能更好的评估模型的理解能力，而很显然，对目前的发展状况来说，这并不现实，一方面是生成领域的模型并不理想，另一方面是评估指标难以确定，但我认为，未来一定是高考中文阅读理解形式的天下，如果你现在有资源爬一爬相关网站组成数据集，说不定就是一篇顶会。

另一方面，现有的阅读理解模型，大多采用注意力机制的方式来解决阅读理解问题，我个人认为这是一个很好的方案，但目前的 Attention 还不够。总的来说，各种花式 Attention 依旧会在接下来很长一段时间内占据主流，除非有更厉害的大杀器出现。

语言的组织问题

语言的组织问题本质上是语言的生成问题，这真的是老大难啊，目前该领域可以说是步步维艰。由于对该领域不甚了解，因此就不班门弄斧了，如果有大佬有所补充，欢迎私信我，或推荐相关文章。