台湾 || 语言: 大陆简体港澳繁體台灣正體

利用循环网路进行序列处理(RNN)

雪花台湾 2019-04-17 23:22

这篇文章可以参考：

循环神经网路?

zybuluo.com

前面探讨了前馈神经网路及其在神经语言模型和文本分类中的应用。在语言模型的例子中，我们看到这样的网路可以被训练成在给定前一个单词有限上下文的序列中预测下一个单词，这种方法让人想起马尔可夫语言建模方法。这些模型通过接受一个固定大小的令牌窗口作为输入来运行;较长的序列是通过在输入上滑动这个窗口进行增量预测来处理的，最终的结果是跨越输入的一系列预测。图9.1演示了这种方法，窗口大小为3。在这里，我们预测下一个单词会出现在窗户下面。接下来的单词是通过将窗口向前滑动一个单词来预测的。

不幸的是，滑动窗口方法有很多问题。首先，它具有马尔可夫方法的主要弱点，因为它限制了可以从中提取信息的上下文;上下文窗口之外的任何内容都不会影响正在作出的决策。这是有问题的，因为有许多语言任务需要访问信息，而这些信息可以任意地远离正在处理的点。其次，窗口的使用使得网路难以学习由选区等现象引起的系统模式。举个例子,在图9.1中这句话the ground在不同的窗口中出现两次:一次,如图所示,在第一和第二位置的窗口,在前面的步骤中第二和第三个插槽,因此迫使网路学习两种不同的模式单一成分。本章的主题是递归神经网路，这是一类通过将序列显式地处理为序列来解决这些问题的网路，允许我们处理可变长度的输入，而不需要使用任意固定大小的窗口。

Elman之后的简单递归神经网路(Elman, 1990)。隐藏层包含一个循环连接作为其输入的一部分。也就是说，隐藏层的激活值取决于当前输入以及前一个时间步中隐藏层的激活值。

Elman之后的简单递归神经网路(Elman, 1990)。隐藏层包含一个循环连接作为其输入的一部分。也就是说，隐藏层的激活值取决于当前输入以及前一个时间步中隐藏层的激活值。

相关文章