這篇文章可以參考:
循環神經網路?zybuluo.com前面探討了前饋神經網路及其在神經語言模型和文本分類中的應用。在語言模型的例子中,我們看到這樣的網路可以被訓練成在給定前一個單詞有限上下文的序列中預測下一個單詞,這種方法讓人想起馬爾可夫語言建模方法。這些模型通過接受一個固定大小的令牌窗口作為輸入來運行;較長的序列是通過在輸入上滑動這個窗口進行增量預測來處理的,最終的結果是跨越輸入的一系列預測。圖9.1演示了這種方法,窗口大小為3。在這裡,我們預測下一個單詞會出現在窗戶下面。接下來的單詞是通過將窗口向前滑動一個單詞來預測的。
不幸的是,滑動窗口方法有很多問題。首先,它具有馬爾可夫方法的主要弱點,因為它限制了可以從中提取信息的上下文;上下文窗口之外的任何內容都不會影響正在作出的決策。這是有問題的,因為有許多語言任務需要訪問信息,而這些信息可以任意地遠離正在處理的點。其次,窗口的使用使得網路難以學習由選區等現象引起的系統模式。舉個例子,在圖9.1中這句話the ground在不同的窗口中出現兩次:一次,如圖所示,在第一和第二位置的窗口,在前面的步驟中第二和第三個插槽,因此迫使網路學習兩種不同的模式單一成分。本章的主題是遞歸神經網路,這是一類通過將序列顯式地處理為序列來解決這些問題的網路,允許我們處理可變長度的輸入,而不需要使用任意固定大小的窗口。