基于feature based的BERT中文标题分类实战

在上篇分享中

https://zhuanlan.zhihu.com/p/72448986?

zhuanlan.zhihu.com

我们实现了基于pytorch

pretrained-bert提供的pretrained-bert进行fine tuning的中文标题分类，事实上在pytorch pretrained-bert中对于下游NLP任务的应用提供了比较丰富的封装和实现，如针对文本分类的BertForSequenceClassification，针对字元分类的BertForTokenClassification，以及判断句子前后关系的BertForNextSentencePrediction。

事实上，上面提到的这些类都是在原先的BertModel基础上对于各种应用的适配，如在pool层上加一个输出大小为1的dense层做二分类便可以用于BertForSequenceClassification和BertForNextSentencePrediction，而在pool层上加一个输出大小为词典数的dense层便可用于BertForTokenClassification，因此具体代码上大同小异，都非常方便。如果想要观察各个模型具体的网路结构上的差异，可以通过https://zhuanlan.zhihu.com/p/71207696 中提到的可视化工具进行网路的可视化，下面是上文中的标题分类模型的网路结构图。