文本分类_DPCNN

ACL 2017
论文《Deep Pyramid Convolutional Neural Networks for Text Categorization》学习笔记参考资料：夕小瑶：从DPCNN出发，撩一下深层word-level文本分类模型

Abstract

该论文提出了一种低复杂度的词级深层CNN用于文本分类，该模型可以对文本中的长期依赖有效建模。

1 Introduction

近些年，可以利用词序信息的神经网路在文本分类任务中显示出了其有效性。

虽然CNN和RNN都可以利用词序信息，但是CNN因为其简洁与可并行而更受欢迎，尤其是训练集比较大的时候。

同字元级CNN相比，词级CNN的层数要更浅。尽管字元级CNN的优点是不需要处理大量不同的单词，但是词级的CNN往往是更有效的。这证实了「单词」的知识能产生更好的表示。

因此，作者想要探索一种深层词级CNN的结构用于文本分类。作者将提出的模型称为深层金字塔形的CNN，因为该模型每层的计算量呈指数下降。

在将离散的文本信息转换为连续表示之后，DPCNN简单地堆叠卷积模块和负采样层（可能就是指max-pooling层）。整个模型的计算量被限制在小于两倍convolution blocks的范围。同时，金字塔的结构也使模型能够发现文本中的长程依赖关系。

2 Word-level deep pyramid CNN(DPCNN) for text categorization

DPCNN总体的结构是这样的：

第一层采用text region embedding，其实就是对一个ngram文本块进行卷积，得到的feature maps作为该文本块的embedding。

然后是convolution blocks的堆叠，就是两个卷积层与shortcut的组合。convolution blocks中间夹pooling层，采用max-pooling，设置步长为2以进行负采样。

最后一个pooling层将每个文档的数据整合成一个向量。

2.1 Network architecture

feature maps数目固定的负采样：由size 3 stride 2 的max-pooling实现。该pooling层跟在convolution blocks后面。带来两点好处：限制了计算量，同时使模型捕获了序列的长程依赖。

预激活的shortcut connections：采用了一致映射的shortcut connections，即z+f(z)的形式。其中f(z)是被短路的卷积层，计算的时候采用预激活。

Abstract

1 Introduction

2 Word-level deep pyramid CNN(DPCNN) for text categorization

2.1 Network architecture

2.2 Text region embedding

3 Experiment

3.1 Experimental setup

3.2 Result

4 Conclusion

热门新闻

周热门

文本分类_DPCNN

Abstract

1 Introduction

2 Word-level deep pyramid CNN(DPCNN) for text categorization

2.1 Network architecture

2.2 Text region embedding

3 Experiment

3.1 Experimental setup

3.2 Result

4 Conclusion

BERT模型有什么调参技巧?

ACL 2019将会有哪些值得关注的论文？

nlp的word2vec中如何把英文片语向量化？

Attention模型理解？

小领域知识图谱应该怎么构建？

有哪些比BERT-CRF更好的NER模型？

NLP或机器学习中什么是结构化数据和非结构化数据？

关于使用keras、CNN实现文本多标签多分类的问题？

如何评价NLP演算法ELECTRA的表现？

创作一个软体，可以将文字描述直接绘制成图，就目前而言有可能实现吗？或者说现在已经有类似的软体了吗？

知识图谱有什么值得研究的问题吗?

NLP问题中是怎么构造数据集的？

BERT这么厉害，如何利用BERT做语义相似度匹配任务呢，或者说，如何利用BERT得到句子语义向量呢？

国内哪些公司有语音合成团队，在做语音合成（TTS）方面的研发？

NLP 也就是自然语言处理，求推荐的中文入门网课或者教材？

热门新闻

周热门