TensorFlow實現多層RNN容易跳的一個坑

本文首發於我的博客，知乎排版可能有問題，建議直接看我的博客

起因

事情的起因是這樣的，我已經用tensorflow實現了一個帶attention的encoder-decoder(都是單層的RNN)的結構，代碼組織結構如下所示

encoder_cell = tf.nn.rnn_cell.LSTMCell(num_units=rnn_size) decoder_cell = tf.nn.rnn_cell.LSTMCell(num_units=rnn_size)

def Encoder(cell, inputs):
根據輸入得到輸出
......
return outputs

# shape: (batch_size, max_seq_len, rnn_size)
encoder_outputs = Encoder(encoder_cell, inputs)

# 下面是attention
attn_mech = tf.contrib.seq2seq.LuongAttention(...)
decoder_cell = tf.contrib.seq2seq.AttentionWrapper(decoder_cell, attn_mech, attention_layer_size=attn_size,...)

# 下面的就不重要了
......

上面這段代碼在attn_size為任何值的時候都是可以正常執行的。這也很符合預期，因為上面這段代碼所乾的事情如下:

用encoder將input編碼成encoder_output(即attention的keys或者memory)；
對於decode的每一個時刻t，將t-1時刻得到的attention context(shape[-1]為attn_size)和decoder的輸入合併在一起輸入到decoder；

......

可以看到attn_size確實是任何值都可以, 也即decoder的輸入維度(attn_size + input_x_size)為任何都可以。

注意TensorFlow中的RNN cell不需要顯式指定輸入的維度(而是自己推斷出來)，這和pytorch不一樣:pytorch_rnn = torch.nn.LSTM(input_size = attn_size + input_x_size, hidden_size=rnn_size)

經過

後來我又想將decoder改成多層的RNN，decoder結構就像下面右邊這樣：

TensorFlow實現多層RNN容易跳的一個坑

起因

經過

解決

總結

熱門新聞

週熱門

TensorFlow實現多層RNN容易跳的一個坑

起因

經過

解決

總結

rnn為什麼訓練速度慢？

PN-28: Sub-policy Adaptation for HRL (arXiv 1906)

重磅！圖像分類相關文獻/代碼大列表

輕量型網路：MixNet解讀

強化學習之Q-Learning

【學習筆記】cs231n中assignment1中的k-Nearest Neighbor (kNN) exercise

【學習筆記】cs231n中assignment2的dropout

詳解PyTorch中的ModuleList和Sequential

人工智慧ai演算法、深度學習、機器學習、自然語言處理工程師崗位

F-Principle：初探理解深度學習不能做什麼

換臉視頻後AI又出偏門應用：用演算法「脫」女性衣服

【KDD18最佳論文揭曉】中科大等斬獲最佳學生論文

用小樣本數據集構建強大的圖像分類模型

「知識星球」網路結構1000變上線，下半年更新500+網路模型解讀

EasyDL終於讓「人工智慧」的「人工」部分智能了

熱門新聞

週熱門