在最一般的情況下,只為原始輸入序列計算注意權重。這種注意力可以稱為single-level。另一方面,注意力可以按順序應用於輸入序列的多個抽象層次。較低抽象級別的輸出(上下文向量)成為較高抽象級別的查詢狀態。此外,使用多級關注的模型可以根據權重是自上而下學習的(趙和張,2018)(從較高抽象級別到較低級別)還是自下而上學習的(Yang等人,016)進行進一步分類。我們舉例說明了這一類別中的一個關鍵示例,它在兩個不同的抽象層次(即單詞級別和句子級別)上使用了注意力模型來完成文檔分類任務[Yang等人,2016]。該模型被稱為「層次注意模型」(Hierarchical Attention Model:HAM),因為它捕獲了文檔的自然層次結構,即文檔由句子組成,句子由單片語成。
多層次的注意允許HAM提取句子中重要的單詞和文檔中重要的句子,如下所示。它首先建立了一種基於attention的句子表示法,並將一級attention應用於單詞嵌入向量序列。然後,它使用第二個層次的attention來聚合這些句子表示,以形成文檔的表示。文檔的最終表示形式用作分類任務的特徵向量。請注意,第3.1節中描述的co-attention工作[Lu等人,2016]也屬於多層次類別,它在三個層次上共同關注圖像和問題:單詞層次、短語層次和問題層次。這種co-attention和multi-level attention的組合如圖3所示。