固定了feature map的数量,每当使用一个size=3和stride=2进行maxpooling进行池化时,每个卷积层的计算时间减半(数据大小减半),从而形成一个金字塔。
这就是论文题目所谓的 Pyramid 。
好啦,看似问题都解决了,目标成功达成。剩下的我们就只需要重复的进行等长卷积+等长卷积+使用一个size=3和stride=2进行maxpooling进行池化就可以啦,DPCNN就可以捕捉文本的长距离依赖啦!
Shortcut connections with pre-activation
但是!如果问题真的这么简单的话,深度学习就一下子少了超级多的难点了。
(1) 初始化CNN的时,往往各层权重都初始化为很小的值,这导致了最开始的网路中,后续几乎每层的输入都是接近0,这时的网路输出没有意义;
(2) 小权重阻碍了梯度的传播,使得网路的初始训练阶段往往要迭代好久才能启动;
(3) 就算网路启动完成,由于深度网路中仿射矩阵(每两层间的连接边)近似连乘,训练过程中网路也非常容易发生梯度爆炸或弥散问题。
当然,上述这几点问题本质就是梯度弥散问题。那么如何解决深度CNN网路的梯度弥散问题呢?当然是膜一下何恺明大神,然后把ResNet的精华拿来用啦! ResNet中提出的shortcut-connection/ skip-connection/ residual-connection(残差连接)就是一种非常简单、合理、有效的解决方案。
类似地,为了使深度网路的训练成为可能,作者为了恒等映射,所以使用加法进行shortcut connections ,即z+f(z) ,其中 f 用的是两层的等长卷积。这样就可以极大的缓解了梯度消失问题。
另外,作者也使用了 pre-activation ,这个最初在何凯明的「Identity Mappings in Deep Residual Networks上提及,有兴趣的大家可以看看这个的原理。直观上,这种「线性」简化了深度网路的训练,类似于LSTM中constant error carousels的作用。而且实验证明 pre-activation优于post-activation。
整体来说,巧妙的结构设计,使得这个模型不需要为了维度匹配问题而担忧。
Region embedding
同时DPCNN的底层貌似保持了跟TextCNN一样的结构,这里作者将TextCNN的包含多尺寸卷积滤波器的卷积层的卷积结果称之为Region embedding ,意思就是对一个文本区域/片段(比如3gram)进行一组卷积操作后生成的embedding。
另外,作者为了进一步提高性能,还使用了tv-embedding (two-views embedding)进一步提高DPCNN的accuracy 。
上述介绍了DPCNN的整体架构,可见DPCNN的架构之精美。本文是在原始论文以及知乎上的一篇文章的基础上进行整理。本文可能也会有很多错误,如果有错误,欢迎大家指出来!建议大家为了更好的理解DPCNN ,看一下原始论文和参考里面的知乎。
用Keras实现DPCNN网路
这里参考了一下kaggle的代码,模型一共用了七层,模型的参数与论文不太相同。这里滤波器通道个数为64(论文中为256),具体的参数可以参考下面的代码,部分我写了注释。
def CNN ( x ):
block = Conv1D ( filter_nr , kernel_size = filter_size , padding = same , activation = linear ,
kernel_regularizer = conv_kern_reg , bias_regularizer = conv_bias_reg )( x )
block = BatchNormalization ()( block )
block = PReLU ()( block )
block = Conv1D ( filter_nr , kernel_size = filter_size , padding = same , activation = linear ,
kernel_regularizer = conv_kern_reg , bias_regularizer = conv_bias_reg )( block )
block = BatchNormalization ()( block )
block = PReLU ()( block )
return block
def DPCNN ():
filter_nr = 64 #滤波器通道个数
filter_size = 3 #卷积核
max_pool_size = 3 #池化层的pooling_size
max_pool_strides = 2 #池化层的步长
dense_nr = 256 #全连接层
spatial_dropout = 0.2
dense_dropout = 0.5
train_embed = False
conv_kern_reg = regularizers . l2 ( 0.00001 )
conv_bias_reg = regularizers . l2 ( 0.00001 )
comment = Input ( shape = ( maxlen ,))
emb_comment = Embedding ( max_features , embed_size , weights = [ embedding_matrix ], trainable = train_embed )( comment )
emb_comment = SpatialDropout1D ( spatial_dropout )( emb_comment )
#region embedding层
resize_emb = Conv1D ( filter_nr , kernel_size = 1 , padding = same , activation = linear ,
kernel_regularizer = conv_kern_reg , bias_regularizer = conv_bias_reg )( emb_comment )
resize_emb = PReLU ()( resize_emb )
#第一层
block1 = CNN ( emb_comment )
block1_output = add ([ block1 , resize_emb ])
block1_output = MaxPooling1D ( pool_size = max_pool_size , strides = max_pool_strides )( block1_output )
#第二层
block2 = CNN ( block1_output )
block2_output = add ([ block2 , block1_output ])
block2_output = MaxPooling1D ( pool_size = max_pool_size , strides = max_pool_strides )( block2_output )
#第三层
block3 = CNN ( block2_output )
block3_output = add ([ block3 , block2_output ])
block3_output = MaxPooling1D ( pool_size = max_pool_size , strides = max_pool_strides )( block3_output )
#第四层
block4 = CNN ( block3_output )
block4_output = add ([ block4 , block3_output ])
block4_output = MaxPooling1D ( pool_size = max_pool_size , strides = max_pool_strides )( block4_output )
#第五层
block5 = CNN ( block4_output )
block5_output = add ([ block5 , block4_output ])
block5_output = MaxPooling1D ( pool_size = max_pool_size , strides = max_pool_strides )( block5_output )
#第六层
block6 = CNN ( block5_output )
block6_output = add ([ block6 , block5_output ])
block6_output = MaxPooling1D ( pool_size = max_pool_size , strides = max_pool_strides )( block6_output )
#第七层
block7 = CNN ( block6_output )
block7_output = add ([ block7 , block6_output ])
output = GlobalMaxPooling1D ()( block7_output )
#全连接层
output = Dense ( dense_nr , activation = linear )( output )
output = BatchNormalization ()( output )
output = PReLU ()( output )
output = Dropout ( dense_dropout )( output )
output = Dense ( 6 , activation = sigmoid )( output )
model = Model ( comment , output )
model . summary ()
model . compile ( loss = binary_crossentropy ,
optimizer = optimizers . Adam (),
metrics = [ accuracy ])
return model
DPCNN实战
上面我们用keras实现了我们的DPCNN网路,这里我们借助kaggle的有毒评论文本分类竞赛来实战下我们的DPCNN网路。
如果您需要有毒评论文本分类数据,可以关注"AI演算法之心",后台回复 "ToxicComment"(建议复制)获取。
具体地代码,大家可以去我的GitHub上面找到源码:
hecongqing/TextClassification ?
github.com欢迎大家关注我的个人公众号,将会同步更新:
公众号: AI演算法之心
参考:
https://ai.tencent.com/ailab/media/publications/ACL3-Brady.pdf
https://zhuanlan.zhihu.com/p/35457093
https://www.kaggle.com/michaelsnell/conv1d-dpcnn-in-keras
推荐阅读: