有哪些比BERT-CRF更好的NER模型？

或者有哪些可继续提升的地方？

都说是SOTA，都只是在某个数据集上，复现差距蛮大的。以前做抽取，在这方面踩坑太多，不想吐槽。

打比赛这种过拟合大赛可以试试：MRC，TENER，FLAT

用类似英语完形填空的方法，对Transformer模型进行预训练。

在CoNLL 2003 (English)数据集上取得了SOTA的结果。

首先，构造数据集是该文章的重要贡献之一。而模型和方法层面，提出了构造query的思想，在阅读理解（machine reading comprehension, MRC）的过程中获取先验知识，以提高NER的效率。

在ACE 2005、GENIA等多个数据集上取得了SOTA的结果。

论文标题：Span-based Joint Entity and Relation Extraction with Transformer Pre-training
原文链接：https://arxiv.org/pdf/1909.07755v3.pdf
源码链接：https://github.com/markus-eberts/spert

提出一种基于span的方法，利用NER和关系提取两种任务的联合模型，提高了NER的准确率。

在SciERC数据集上取得了SOTA的结果。

（待续……）

后续有一些基于机器阅读理解（mrc）的尝试，虽然个人测试在部分领域不如crf，不过也是很好的方向。

论文名称：Named Entity Recognition as Dependency Parsing

ACL2020的一篇文章，使用biaffine来做NER，实际实验过程中，不管是训练还是测试，都比CRF要快很多。

在我目前做的一个任务上，BERT-Biaffine是明显好于BERT-CRF的，在其他任务上不一定如此，仅供参考。

近期用BERT-CRF BERT-BiLSTM-CRF BERT-softmax 等模型参加了一个医药命名实体识别提取，发现CLUNER上表现好的，在本次比赛中效果都不行，反而BERT-CRF是效果最好的。

不同的模型在不同的数据集上面表现不一样，所以说很难说有最好的。

不同领域，不同语言，还要具体问题具体分析

ACL 2019将会有哪些值得关注的论文？