有哪些比BERT-CRF更好的NER模型？

或者有哪些可繼續提升的地方？

都說是SOTA，都只是在某個數據集上，復現差距蠻大的。以前做抽取，在這方面踩坑太多，不想吐槽。

打比賽這種過擬合大賽可以試試：MRC，TENER，FLAT

用類似英語完形填空的方法，對Transformer模型進行預訓練。

在CoNLL 2003 (English)數據集上取得了SOTA的結果。

首先，構造數據集是該文章的重要貢獻之一。而模型和方法層面，提出了構造query的思想，在閱讀理解（machine reading comprehension, MRC）的過程中獲取先驗知識，以提高NER的效率。

在ACE 2005、GENIA等多個數據集上取得了SOTA的結果。

論文標題：Span-based Joint Entity and Relation Extraction with Transformer Pre-training
原文鏈接：https://arxiv.org/pdf/1909.07755v3.pdf
源碼鏈接：https://github.com/markus-eberts/spert

提出一種基於span的方法，利用NER和關係提取兩種任務的聯合模型，提高了NER的準確率。

在SciERC數據集上取得了SOTA的結果。

（待續……）

後續有一些基於機器閱讀理解（mrc）的嘗試，雖然個人測試在部分領域不如crf，不過也是很好的方向。

論文名稱：Named Entity Recognition as Dependency Parsing

ACL2020的一篇文章，使用biaffine來做NER，實際實驗過程中，不管是訓練還是測試，都比CRF要快很多。

在我目前做的一個任務上，BERT-Biaffine是明顯好於BERT-CRF的，在其他任務上不一定如此，僅供參考。

近期用BERT-CRF BERT-BiLSTM-CRF BERT-softmax 等模型參加了一個醫藥命名實體識別提取，發現CLUNER上表現好的，在本次比賽中效果都不行，反而BERT-CRF是效果最好的。

不同的模型在不同的數據集上面表現不一樣，所以說很難說有最好的。

不同領域，不同語言，還要具體問題具體分析