基於feature based的BERT中文標題分類實戰

在上篇分享中

https://zhuanlan.zhihu.com/p/72448986?

zhuanlan.zhihu.com

我們實現了基於pytorch

pretrained-bert提供的pretrained-bert進行fine tuning的中文標題分類，事實上在pytorch pretrained-bert中對於下游NLP任務的應用提供了比較豐富的封裝和實現，如針對文本分類的BertForSequenceClassification，針對字元分類的BertForTokenClassification，以及判斷句子前後關係的BertForNextSentencePrediction。

事實上，上面提到的這些類都是在原先的BertModel基礎上對於各種應用的適配，如在pool層上加一個輸出大小為1的dense層做二分類便可以用於BertForSequenceClassification和BertForNextSentencePrediction，而在pool層上加一個輸出大小為詞典數的dense層便可用於BertForTokenClassification，因此具體代碼上大同小異，都非常方便。如果想要觀察各個模型具體的網路結構上的差異，可以通過https://zhuanlan.zhihu.com/p/71207696 中提到的可視化工具進行網路的可視化，下面是上文中的標題分類模型的網路結構圖。