文本分類_DPCNN

ACL 2017
論文《Deep Pyramid Convolutional Neural Networks for Text Categorization》學習筆記參考資料：夕小瑤：從DPCNN出發，撩一下深層word-level文本分類模型

Abstract

該論文提出了一種低複雜度的詞級深層CNN用於文本分類，該模型可以對文本中的長期依賴有效建模。

1 Introduction

近些年，可以利用詞序信息的神經網路在文本分類任務中顯示出了其有效性。

雖然CNN和RNN都可以利用詞序信息，但是CNN因為其簡潔與可並行而更受歡迎，尤其是訓練集比較大的時候。

同字元級CNN相比，詞級CNN的層數要更淺。儘管字元級CNN的優點是不需要處理大量不同的單詞，但是詞級的CNN往往是更有效的。這證實了「單詞」的知識能產生更好的表示。

因此，作者想要探索一種深層詞級CNN的結構用於文本分類。作者將提出的模型稱為深層金字塔形的CNN，因為該模型每層的計算量呈指數下降。

在將離散的文本信息轉換為連續表示之後，DPCNN簡單地堆疊卷積模塊和負採樣層（可能就是指max-pooling層）。整個模型的計算量被限制在小於兩倍convolution blocks的範圍。同時，金字塔的結構也使模型能夠發現文本中的長程依賴關係。

2 Word-level deep pyramid CNN(DPCNN) for text categorization

DPCNN總體的結構是這樣的：

第一層採用text region embedding，其實就是對一個ngram文本塊進行卷積，得到的feature maps作為該文本塊的embedding。

然後是convolution blocks的堆疊，就是兩個卷積層與shortcut的組合。convolution blocks中間夾pooling層，採用max-pooling，設置步長為2以進行負採樣。

最後一個pooling層將每個文檔的數據整合成一個向量。

2.1 Network architecture

feature maps數目固定的負採樣：由size 3 stride 2 的max-pooling實現。該pooling層跟在convolution blocks後面。帶來兩點好處：限制了計算量，同時使模型捕獲了序列的長程依賴。

預激活的shortcut connections：採用了一致映射的shortcut connections，即z+f(z)的形式。其中f(z)是被短路的卷積層，計算的時候採用預激活。

Abstract

1 Introduction

2 Word-level deep pyramid CNN(DPCNN) for text categorization

2.1 Network architecture

2.2 Text region embedding

3 Experiment

3.1 Experimental setup

3.2 Result

4 Conclusion

熱門新聞

週熱門

文本分類_DPCNN

Abstract

1 Introduction

2 Word-level deep pyramid CNN(DPCNN) for text categorization

2.1 Network architecture

2.2 Text region embedding

3 Experiment

3.1 Experimental setup

3.2 Result

4 Conclusion

BERT模型有什麼調參技巧?

ACL 2019將會有哪些值得關注的論文？

nlp的word2vec中如何把英文片語向量化？

Attention模型理解？

小領域知識圖譜應該怎麼構建？

有哪些比BERT-CRF更好的NER模型？

NLP或機器學習中什麼是結構化數據和非結構化數據？

關於使用keras、CNN實現文本多標籤多分類的問題？

如何評價NLP演算法ELECTRA的表現？

創作一個軟體，可以將文字描述直接繪製成圖，就目前而言有可能實現嗎？或者說現在已經有類似的軟體了嗎？

知識圖譜有什麼值得研究的問題嗎?

NLP問題中是怎麼構造數據集的？

BERT這麼厲害，如何利用BERT做語義相似度匹配任務呢，或者說，如何利用BERT得到句子語義向量呢？

國內哪些公司有語音合成團隊，在做語音合成（TTS）方面的研發？

NLP 也就是自然語言處理，求推薦的中文入門網課或者教材？

熱門新聞

週熱門