这篇文章可以参考:
循环神经网路?zybuluo.com前面探讨了前馈神经网路及其在神经语言模型和文本分类中的应用。在语言模型的例子中,我们看到这样的网路可以被训练成在给定前一个单词有限上下文的序列中预测下一个单词,这种方法让人想起马尔可夫语言建模方法。这些模型通过接受一个固定大小的令牌窗口作为输入来运行;较长的序列是通过在输入上滑动这个窗口进行增量预测来处理的,最终的结果是跨越输入的一系列预测。图9.1演示了这种方法,窗口大小为3。在这里,我们预测下一个单词会出现在窗户下面。接下来的单词是通过将窗口向前滑动一个单词来预测的。
不幸的是,滑动窗口方法有很多问题。首先,它具有马尔可夫方法的主要弱点,因为它限制了可以从中提取信息的上下文;上下文窗口之外的任何内容都不会影响正在作出的决策。这是有问题的,因为有许多语言任务需要访问信息,而这些信息可以任意地远离正在处理的点。其次,窗口的使用使得网路难以学习由选区等现象引起的系统模式。举个例子,在图9.1中这句话the ground在不同的窗口中出现两次:一次,如图所示,在第一和第二位置的窗口,在前面的步骤中第二和第三个插槽,因此迫使网路学习两种不同的模式单一成分。本章的主题是递归神经网路,这是一类通过将序列显式地处理为序列来解决这些问题的网路,允许我们处理可变长度的输入,而不需要使用任意固定大小的窗口。