題目:Semantic-Unit-Based Dilated Convolution for Multi-Label Text Classification

來源:EMNLP 2018論文鏈接:Semantic-Unit-Based Dilated Convolution for Multi-Label Text Classification源碼鏈接:lancopku/SU4MLC

文本分類的常規流程

1. Introduction

本文是北京大學孫栩老師組發表在 EMNLP 2018 的論文。文章通過實驗發現,在利用 Seq2Seq 模型解決 Multi-Label Classific(MLC)問題時,傳統 Attention 機制起到的貢獻較小。原因在於傳統 Attention 機制關注的是 word-level,而分類任務往往依賴著整個句子的 salient meaning。

作者通過在 LSTM 產生的 word-level 上的表示進行多級的 Dilated Convolution 來捕獲更高級別的 semantic unit(例如 phrases)的信息,進而增強 Seq2Seq 的效果。進一步地,作者將高層的 attention 和詞級別的 attention 做了整合,提出 Hybrid Attention 來兼顧各個級別表示的信息。文章提出的模型在 RCV1-v2 和 Ren-CECps 上對比的 Seq2Seq 模型都有較大的性能提升。

1.1 What is Multi-Label Text Classification?

多標籤文本分類指的是將給定的文本打上多個標籤。

傳統的多標籤分類方法(例如Binary Relevance),將多標籤問題轉化為多個二分類問題,忽視了標籤之間的相關性;像Rank-SVM等模型一定程度上的捕獲到標籤之間的內部關係,但仍只是簡單地捕獲到低級別的關係;將Seq2Seq方法引入多標籤分類問題,能進一步地提高捕捉到更高級的標籤之間的關係;但本文論證了,其中常用的attention機制並不會增強分類效果。

本文作者認為,在文本分類任務中應該跟在意跳躍的語義信息而不是字詞級的信息。例如,對於「The young boys are playing basketball with great excitement and apparently they enjoy the fun of competition」,我們可以發現兩個不連續的語義單元 game of the young happiness of basketball game。這樣我們就可以按照語義單元將文本分類成youth sports

1.2 本文的主要貢獻

  • 分析了普通的attention的機制在多標籤文本分類任務上,並不是很有效;並且提出了一種multi-level dilated convolution的結構來捕獲文本中的語義單元;
  • 在RCV1-v2和Ren-CECps這兩個數據集上得到SOTA的表現;
  • 該模型結構比傳統的seq2seq結構能更好地預測低頻的標籤

2. Model

由於本文作者沒有給整體的模型圖,所以我們借用一下CNN-RNN的模型圖建立一個直觀的了解。

CNN-RNN

2.1 Attention-based Seq2Seq for Multi-label Text Classification

如果將多標籤文本分類任務看作Seq2Seq任務的話,那麼輸入文本為 x = left{ {x_1,...,x_i,...,x_n}
ight} ,輸出的標籤序列則為 y = left{ {y_1,...,y_i,...,y_n}
ight}

2.2 Proposed Method

下面介紹的模型包括兩個部分multi-level dilated convolution(MDC)hybrid mechanism.

2.2.1 Multi-level Dilated Convolution

模型的該部分結構參考了 [Kalchbrenner et al.,2014]這篇文章在NLP任務中使用CNN的思想,其使用三層一維的卷積,其中通道的數量等於隱藏層的單元數,因此表示向量的每個維度上的信息不會像二維卷積那樣斷開。而且,由於只需要捕獲語義信息而不是更高層的詞表示信息,因此也不需要進行padding操作。

Multi-level Dilated Convolution

本文採用了一個特殊的CNN結構空洞卷積/膨脹卷積(dilated convolution)。空洞卷積與普通的卷積相比,除了卷積核的大小之外,還有一個名為擴張率(dilation rate)的參數,主要用來表示擴張的大小。空洞卷積與普通卷積的相同點在於,卷積核的大小是一樣的,在神經網路中即參數數量不變,區別在於擴張卷積具有更大的感受野。

普通卷積vs空洞卷積

(a) 普通卷積,1-dilated convolution,卷積核的感受野為 3 	imes 3 = 9

(b) 擴張卷積,2-dilated convolution,卷積核的感受野為 7 	imes 7 = 49

(c) 擴張卷積,4-dilated convolution,卷積核的感受野為 15 	imes 15 = 225

dilated的好處是不做pooling損失信息的情況下,加大了感受野,讓每個卷積輸出都包含較大範圍的信息。在圖像需要全局信息或者語音文本需要較長的sequence依賴的問題中,都可以應用dilated conv來解決,比如圖像分割、語音合成WaveNet和機器翻譯ByteNet等。

wavenet

2.2.2 Hybrid Attention

LSTM解碼器得到的隱層狀態為 h = left{ {h_1,...,h_i,...,h_n}
ight} ,語義單元的表示為 g = left{ {g_1,...,g_i,...,g_m}
ight} ,解碼器的輸出 s_t 首先先同語義單元表示 g 進行attention操作得到 s_{t}^{} 。然後將這個新的表示 s_{t}^{}h 進行attention操作生成 	ilde {s_{t}} 。最後,求出用於預測 y_{t}o_{t}

o_t = s_t^{} oplus 	ilde {s_{t}}

Hybrid Attention

3. 實驗

3.1 數據集

Reuters Corpus Volume I (RCV1-v2): 該數據集是路透社提供的超過80w手動分類的新聞。

Ren-CECps:該數據集是從中國博客收集的句子語料庫,注釋有8種情緒標籤憤怒,焦慮,期待,仇恨,喜悅,愛情,悲傷和驚訝以及正極,負極和中性的3極性標籤。

3.2評價指標

Hamming Loss: HL = frac{1}{L} sum I(y 
eq hat{y})

micro-F1 score: microF_1 = frac{sum_{j=1}^{L} 2tp_{j}}{sum_{j=1}^{L} 2tp_{j}+fp_{j}+fn_{j}}

3.3 實驗結果

RCV1-V2
Ren-CECps

消融實驗

ablation test

相關鏈接

清凇:用深度學習(CNN RNN Attention)解決大規模文本分類問題 - 綜述和實踐

對 Dilated Convolution 理解

如何理解空洞卷積(dilated convolution)?

Deep Learning for NLP Best Practices

參考文獻

Nal Kalchbrenner, Edward Grefenstette, and Phil Blunsom. 2014. A convolutional neural network for modelling sentences. In ACL 2014, pages 655–665.

Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. 2017. Convolutional sequence to sequence learning. In ICML 2017, pages 1243–1252.

Ensemble application of convolutional and recurrent neural networks for multi-label text categorization

Multi-Scale Context Aggregation by Dilated Convolutions

推薦閱讀:

相关文章