基於BERT fine-tuning的中文標題分類實戰

背景

BERT的問世向世人宣告了無監督預訓練的語言模型在眾多NLP任務中成為「巨人肩膀」的可能性，接踵而出的GPT2、XL-Net則不斷將NLP從業者的期望帶向了新的高度。得益於這些力作模型的開源，使得我們在瞭解其論文思想的基礎上，可以借力其憑藉強大算力預訓練的模型從而快速在自己的數據集上開展實驗，甚至應用於真實的業務中。

在GitHub上已經存在使用多種語言/框架依照Google最初release的TensorFlow版本的代碼進行實現的Pretrained-BERT，並且都提供了較為詳細的文檔。本文主要展示通過極簡的代碼調用Pytorch Pretrained-BERT並進行fine-tuning的文本分類任務。

下面的代碼是使用pytorch

-pretrained-BERT進行文本分類的官方實現，感興趣的同學可以直接點進去閱讀：

https://github.com/huggingface/pytorch-pretrained-BERT/blob/master/examples/run_classifier.py?

github.com

數據介紹

本文所使用的數據是標題及其對應的類別，如「中國的垃圾分類能走多遠」對應「社會」類別，共有28個類別，每個類別的訓練數據和測試數據各有1000條，數據已經同步至雲盤，歡迎下載。鏈接:

https://pan.baidu.com/s/1r4SI6-IizlCcsyMGL7RU8Q?

pan.baidu.com

提取碼: 6awx

載入庫

import os import sys import pickle import pandas as pd import numpy as np from concurrent.futures import ThreadPoolExecutor import torch import pickle from sklearn.preprocessing import LabelEncoder from torch.optim import optimizer from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset from torch.nn import CrossEntropyLoss,BCEWithLogitsLoss from tqdm import tqdm_notebook, trange from pytorch_pretrained_bert import BertTokenizer, BertModel, BertForMaskedLM, BertForSequenceClassification from pytorch_pretrained_bert.optimization import BertAdam, WarmupLinearSchedule from sklearn.metrics import precision_recall_curve,classification_report import matplotlib.pyplot as plt %matplotlib inline

載入數據

# pandas讀取數據 data = pd.read_pickle("title_category.pkl") # 列名重新命名 data.columns = [text,label]

標籤編碼

因為label為中文格式，為了適應模型的輸入需要進行ID化，此處調用sklearn中的label encoder方法快速進行變換。

le = LabelEncoder() le.fit(data.label.tolist()) data[label] = le.transform(data.label.tolist())

基於BERT fine-tuning的中文標題分類實戰

背景

數據介紹

載入庫

載入數據

標籤編碼

觀察數據

訓練數據準備

載入預訓練的bert模型

數據格式化

fine-tuning

loss可視化

測試

模型持久化

載入測試數據

總結

熱門新聞

週熱門

基於BERT fine-tuning的中文標題分類實戰

背景

數據介紹

載入庫

載入數據

標籤編碼

觀察數據

訓練數據準備

載入預訓練的bert模型

數據格式化

fine-tuning

loss可視化

測試

模型持久化

載入測試數據

總結

BERT模型有什麼調參技巧?

ACL 2019將會有哪些值得關注的論文？

nlp的word2vec中如何把英文片語向量化？

Attention模型理解？

小領域知識圖譜應該怎麼構建？

有哪些比BERT-CRF更好的NER模型？

NLP或機器學習中什麼是結構化數據和非結構化數據？

關於使用keras、CNN實現文本多標籤多分類的問題？

如何評價NLP演算法ELECTRA的表現？

創作一個軟體，可以將文字描述直接繪製成圖，就目前而言有可能實現嗎？或者說現在已經有類似的軟體了嗎？

知識圖譜有什麼值得研究的問題嗎?

NLP問題中是怎麼構造數據集的？

請問pip install pytorch具體有哪些坑，可以繞過嗎？

2019年11月，tensorflow已經發布2.0正式版本，tf 1.1x版本用戶應該如何選擇？

pytorch保存模型再載入比訓練時低了兩個點，這是為什麼呢？

熱門新聞

週熱門