在BERT的表示学习下很多靠复杂网路结构的模型也随之失效,同时很多的迁移学习和弱监督学习等方法也在NLP中失去了用武之地或者效果没有那么明显,那下一步NLP该忘哪个方向去发展?除去NLP中的推理,知识图谱等内容,还有什么可以进一步尝试的?


亲,我觉得BERT只是开始。BERT是一个简洁优雅大力出奇迹的工作,我是非常欣赏的。我觉得可以把BERT比喻成NLP界「ResNet」,一系列更大的革命在等著我们。

1. 更大的BERT

一方面是BERT才十二层,相比CV的ResNet等上百层网路,把BERT提升到上百层上千层,会怎样?

一方面transformer对长文本,实际上非常不友好,计算量非常大,如何让BERT应付长文本的调整。

2. 更丰富的信息

此前BERT是基于字的,如果使用n-gram会怎么样,所以有n-gram BERT。

BERT是基于文本的,如果引入外部知识会怎么样,所以有了百度的ERNIE

3. 更快的BERT

BERT另外一大挑战是如此大,如此重的模型,如何上线?

用小模型,如三层transformer就获得十二层transformer的效果?这是模型蒸馏的角度。

用更少的参数?剪去多余无效的参数?这是模型剪枝。

用更低的精度呢?INT8行不行?三值网路行不行?二值网路行不行?

精简transformer呢?研究更高效的transformer?


BERT如今提出来已经很久,基于pre-trained model的研究可以说层出不穷,包括下游任务的应用,学到的权重的解释,压缩模型,knowledge学习等,最新的复旦邱老师关于Pre-trained 模型的综述:

https://arxiv.org/pdf/2003.08271.pdf?

arxiv.org

里面给出了预训练模型的分类总结以及在未来的可能方向,相信能有所收获。

目前可以尝试的方向:

  1. Multi-task
  2. Multi-model (多模态,NLP结合图片,知识,语音等)
  3. 领域相关的预训练
  4. BERT在不同领域,不同任务的尝试,每一层学习知识的理解。
  5. GNN(Graph Neural Network: GNN, GCN and GAT), RL (Reinforcement Learning),meta learning and few-shot learning. 结合知识图谱,常识等内容。
  6. 模型可解释性。
  7. NLP与其他任务的结合,如情感分类与问答,检索,推荐等的结合,甚至结合图像情感分类。

以下摘抄自:

阿里云云栖社区:通用句子向量漫谈?

zhuanlan.zhihu.com图标
  1. 引入领域知识、语法句法知识、业务知识、常识,训练更好的句子表征。领域知识包含知识图谱等结构化数据,给定一个知识图谱和一个自然语言问题,如何将该问题转化为机器能够理解和执行的语义表示,受到了来自全世界研究者的广泛关注和深入探索。
  2. Meta-learning。对于低资源的语言或长尾问题,样本稀缺,Meta-learning作为解决Few-shot问题的方法之一已在CV领域取得了诸多进展,而在NLP领域仍存在广阔的空间。
  3. 图神经网路。图作为一个可推理,研究人员开始研究如何将卷积神经网路迁移到图数据上,涌现出ChevNet、MoNet、GCN、GAT等一系列方法,在基于图的半监督分类和图表示学习等任务中表现出很好的性能。句子本身是具有语法结构信息的,基于图神经网路的句子表征已经在一些特定的任务如事件抽取、关系抽取取得了不错的效果,是否有进一步的扩展空间值得研究。
  4. 多模态。婴儿在掌握语言功能前,首先通过视觉、听觉和触觉等感官去认识并了解外部世界。语言并不是人类在幼年时期与外界进行沟通的首要手段。因此,构建通用人工智慧也应该充分地考虑自然语言和其他模态之间的互动,并从中进行学习,这就是多模态学习。
  5. 可解释性。词、句子表征一直都是大黑盒,虽然存在一些学者对向量维度进行可解释信性研究,然而如何平衡可解释和性能,如何将NLP模型预测结果解释给客户是一个方向。

目前的尝试:

本人主要目前主要做一些Aspect Based Sentiment Classification的工作,也就对目前BERT结合该任务进行的一些尝试,实验可以发现目前在这个任务中,只要把Sentence和aspect看成两句话,然后得到768维的表示输入到一个MLP就可以在Restaurant14和Laptop14获得84.5和79的准确率(直接在test上取最好),而目前没有BERT的模型效果差不多只有80-82和72-76之间。同时在BERT获得词向量基础上叠加复杂的网路对效果的提升很小,目前ASC结合BERT的论文有三个:

  • AEN_BERT / BERT_SPC: Attentional Encoder Network for Targeted Sentiment Classification. arXiv preprint 2019. [paper] [code]
  • BERT_PT: BERT Post-Training for Review Reading Comprehension and Aspect-based Sentiment Analysis. NAACL 2019. [paper] [code]
  • BERT-pair: Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence. NAACL 2019. [paper] [code]

整理一份目前对于BERT等预训练模型介绍的一些知乎文章:1.

张俊林:从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史?

zhuanlan.zhihu.com图标

2.

夕小瑶:NLP的游戏规则从此改写?从word2vec, ELMo到BERT?

zhuanlan.zhihu.com图标

3.

如何评价 BERT 模型??

www.zhihu.com图标

4.

量子位:全面超越人类!Google称霸SQuAD,BERT横扫11大NLP测试?

zhuanlan.zhihu.com图标

5.

李如:【NLP】Google BERT详解?

zhuanlan.zhihu.com图标

BERT 中transfer模型通俗易懂的介绍以及和RNN,CNN实验对比:

数据汪:BERT大火却不懂Transformer?读这一篇就够了?

zhuanlan.zhihu.com图标张俊林:放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较?

zhuanlan.zhihu.com图标

BERT展望:

张俊林:Bert时代的创新:Bert应用模式比较及其它?

zhuanlan.zhihu.com图标

BERT目前使用最方便的调用方式:

huggingface/pytorch-pretrained-BERT?

github.com图标


我总结BERT所代表的趋势是,深度学习从特定任务有监督训练数据到非特定任务无标注文本数据的推广,将触手从有监督的小数据扩展到了没有专门标注的大数据上。深度学习愈发成为从各类型文本数据中「萃取」有用信息的利器,将数据驱动的威力发挥得更加淋漓尽致。

沿著数据驱动的路线,有很多可以推进的方向。一方面,人们很自然想到在BERT基础上研究特定任务的适配Fine-Tune模型,这在进入2019年的arxiv论文已经初见端倪,特别是在Few Shot Learning等场景下的小数据任务上效果尤为明显。另一方面是在BERT思想的启发下,是否可以在Mask LM和Next Sentence Prediction之外设计更多学习任务,将文本数据中的更多有用信息学习进来,例如百度ERNIE考虑实体的边界信息,跨语言信息,文本的其他元信息或结构信息(如链接、作者、时间、标签等等),相信在未来1-2年内都会如约而至。

由于我主要从事知识图谱与自然语言处理的研究,所以对结构化知识格外感兴趣。我总觉得深度学习仅从文本数据中真正地理解人类语言。我认为,将人类知识符号化表示出来并与深度学习融合,是实现可解释、有理解能力的自然语言处理的必经之路。之前报告中经常举如下这个例子,可以一定程度说明,大规模无标注文本中除了自身蕴藏的语言知识外,还关联著各种类型的人类知识。由于这些知识并不完全在文本数据中,无法仅用数据驱动的深度学习来习得。

聚焦到以BERT为代表的文本预训练模型而言,当务之急是如何将大规模的外部知识图谱(如语言知识、常识知识、世界知识、行业知识等)融合进来,提升模型的可解释性和鲁棒性。我们在ACL 2019上的ERNIE(https://arxiv.org/abs/1905.07129)是非常初步的尝试(这里还有个与百度ERNIE重名的小插曲,详情参见我在另一个问题下的回答:https://www.zhihu.com/question/324223170/answer/686289852)。

总之,我深信知识图谱+深度学习大有可为,我目前设想的技术体系如下图所示,希望能够吸引更多朋友的兴趣,共同探索这个充满未知的领域。


推荐阅读:
相关文章