BERT的問世向世人宣告了無監督預訓練的語言模型在眾多NLP任務中成為「巨人肩膀」的可能性,接踵而出的GPT2、XL-Net則不斷將NLP從業者的期望帶向了新的高度。得益於這些力作模型的開源,使得我們在了解其論文思想的基礎上,可以借力其憑藉強大算力預訓練的模型從而快速在自己的數據集上開展實驗,甚至應用於真實的業務中。
在GitHub上已經存在使用多種語言/框架依照Google最初release的TensorFlow版本的代碼進行實現的Pretrained-BERT,並且都提供了較為詳細的文檔。本文主要展示通過極簡的代碼調用Pytorch Pretrained-BERT並進行fine-tuning的文本分類任務。
本文所使用的數據是標題及其對應的類別,如「中國的垃圾分類能走多遠」對應「社會」類別,共有28個類別,每個類別的訓練數據和測試數據各有1000條,數據已經同步至雲盤,歡迎下載。鏈接: