让技术干货和年度总结来得更猛烈些吧!


2019年,整个AI行业的发展如何?

  • NLP模型不断刷新成绩,谷歌和Facebook你方唱罢我登场;
  • GAN在不断进化,甚至能生成高解析度难辨真假的人脸;

  • 强化学习攻破了《星际2》等战略游戏。

让人对到来的2020年充满期待。

Analytics Vidhya发布了2019年AI技术回顾报告,总结了过去一年中,AI在不同技术领域取得的进展,并展望了2020年的新趋势。

Analytics Vidhya是一个著名数据科学社区。其技术回顾报告由多位机器学习业内专家撰写。

报告认为,在过去的一年中,发展最为迅猛的是NLP,CV已较为成熟,RL才刚刚起步,明年可能迎来大爆发。

量子位在报告基础上,进行了编译整理及补充。话不多说,一起来逐一盘点2019的那些AI技术吧:

自然语言处理(NLP):语言模型井喷,部署工具涌现

NLP在2019年实现了巨大的飞跃,该领域这一年取得的突破是无与伦比的。

报告认为,2018年是NLP的分水岭,2019年本质上是在此基础上进一步发展,让该领域突飞猛进。

Transformer统治了NLP

自从2017年的论文Attention is All You Need发表以来,出现了BERT为代表的NLP模型。之后,Transformer一次又一次地在NLP领域中统治了SOTA结果。

谷歌的Transformer-XL是另一种基于Transformer的模型,在语言建模方面胜过BERT。随后是OpenAI的GPT-2模型,它以其生成非常像人类的语言文字而闻名。

2019年下半年,BERT本身出现了许多创新,例如CMU的XLNet,Facebook AI的RoBERTa和mBERT(多语言BERT)。这些模型在RACE、SQuAD等测试榜上不断刷新成绩。

GPT-2则终于释出完整版,开源15亿参数模型。

GPT-2模型地址:

https://openai.com/blog/gpt-2-1-5b-release/

延伸阅读

BERT重夺多项测试第一名,改进之后性能追上XLNet,现已开源预训练模型

模仿川普语气真假难分,康奈尔盲测15亿参数模型:从未如此逼真,最强编故事AI完全体来了

大型预训练语言模型成常态

迁移学习是2019年NLP领域出现的另一趋势。我们开始看到多语言模型,这些模型在大型的未标记文本语料库上进行了预训练,从而使它们能够学习语言本身的潜在细微差别。

GPT-2、Transformer-XL等模型几乎可以对所有NLP任务进行微调,并且可以在相对较少的数据下很好地运行。

像百度的ERNIE 2.0这样的模型引入了持续预训练的概念,预训练方法有了很大的进步。在此框架中,可以随时逐步引入不同的自定义任务。

新的测试标准推出

随著一系列NLP新模型带来了巨大性能提升,它们的测试分数也已经达到了上限,分差很小,甚至在GLUE测试中超过了人类的平均水平。

因此这些测试基准已经不足以反映NLP模型的发展水平,也不利于未来的进一步提高。

DeepMind、纽约大学、华盛顿大学联合Facebook提出了新的测试标准SuperGLUE,加入了更难的因果推理任务,对NLP模型提出了新的挑战。

开始考虑NLP的工程和部署

2019年出现了一大批实用的NLP资源:

斯坦福大学开源的StanfordNLP库,HuggingFace的Transformer预训练模型库。spaCy利用该库创建了spacy-transformers,这是一种用于文本处理的工业级库。

斯坦福NLP小组表示:「与我们在2019年训练的大型语言模型一样,我们还将重点放在优化这些模型上。」

像BERT,Transformer-XL,GPT-2这些大型模型的问题在于,它们的计算量很大,因此在现实中使用它们几乎是不切实际的。

HuggingFace的DistilBERT显示,可以将BERT模型的大小减少40%,同时保留其97%的语言理解能力,并且速度提高60%。

谷歌和丰田研究出了另一种减小BERT模型尺寸的方法ALBERT,它在3个NLP基准测试(GLUE,SQuAD,RACE)上获得了SOTA的成绩。

延伸阅读

GitHub万星NLP资源大升级:实现Pytorch和TF深度互操作,集成32个最新预训练模型

对语音识别的兴趣增加

NLP领域在2019年重新燃起了对英伟达NeMo等框架开发音频数据的兴趣,该框架使端到端自动语音识别系统的模型训练变得异常轻松。

除了NeMo之外,英伟达还开源了QuartzNet,QuartzNet 另一个基于Jasper的新的端到端语音识别模型架构,Jasper是一种小型,高效的语音识别模型。

更关注多语言模型

在能够使用多语言数据之前,NLP如何真正发挥作用?

今年,人们对重新探索NLP库(例如StanfordNLP)的多语言途径有了新的兴趣,这些途径带有经过预先训练的模型,可以处理50多种人类语言的文本。您可以想像,这对社区产生了巨大影响。

然后,成功尝试通过Facebook AI的XLM mBERT(超过100种语言)和CamemBERT 等项目来创建像BERT这样的大型语言模型,该项目针对法语进行了微调:

2020年趋势

以上是2019年NLP领域进展的总结,2020年该领域会有哪些趋势呢?

身为NLP专家、Kaggle Grandmaster的Sudalai Rajkumar推测了2020年的主要趋势:

延续当前趋势,在更大的数据集上训练更大的深度学习模型;

构建更多的生产应用程序,较小的NLP模型将对此有所帮助;手动注释文本数据的成本很高,因此半监督标记方法可能会变得很重要;NLP模型的可解释性,了解模型在进行公正决策时学到的知识。

NLP领域学者、ULMFiT的作者之一Sebastian Ruder认为:

不仅会从庞大的数据集中学习,还会看到更多的模型在更少样本上高效地学习;

模型越来越强调稀疏性和效率;

重点关注多语言的更多数据集。

计算机视觉(CV):图像分割愈发精细,AI造假愈演愈真

计算机视觉方面,今年CVPR、ICCV等国际顶会接收论文数量均有大幅增长。下面,就来回顾2019最受瞩目的几种重要演算法和实现。

何恺明Mask R-CNN正在被超越

Mask Scoring R-CNN

在COCO图像实例分割任务上,Mask Scoring R-CNN超越了何恺明的Mask R-CNN,并因此中选计算机视觉顶会CVPR 2019的口头报告。

在Mask R-CNN这样的模型中,实例分类的置信度被当作mask的质量衡量指标,但实际上mask的质量和分类的质量并没有很强的相关性。

华中科技大学的这篇文章针对这个问题进行了研究,他们提出了一种新的打分方法:mask score。

不仅仅直接依靠检测得到分类得分,Mask Scoring R-CNN模型还单独学习了一个针对mask的得分规则:MaskloU head。

同时考虑分类得分和蒙版得分,Mask Scoring R-CNN就能更加公正地评估演算法质量,提高实例分割模型的性能。

研究团队在COCO数据集上进行了实验,结果表明Mask Scoring R-CNN在不同的基干网路上,AP提升始终在1.5%左右。

这篇论文被Open Data Science评为2019年第一季度十佳论文之一。

论文一作是地平线实习生黄钊金,来自华中科技大学电信学院副教授王兴刚的团队,王兴刚也是这篇论文的作者之一。

SOLO

位元组跳动实习生王鑫龙提出的实例分割新方法SOLO,作为一种单阶段实例分割方法,框架更简单,但性能同样超过了Mask R-CNN。

SOLO方法的核心思想是,将实例分割问题重新定义为类别感知预测问题和实例感知掩码生成问题。

COCO数据集上的实验结果表明,SOLO的效果普遍超过此前的单阶段实例分割主流方法,在一些指标上还超过了增强版Mask R-CNN。

相关地址

https://arxiv.org/abs/1903.00241v1

https://arxiv.org/abs/1912.04488

延伸阅读

性能超越何恺明Mask R-CNN!华科硕士生开源图像分割新方法 | CVPR19 Oral

位元组跳动实习生提出实例分割新方法:性能超过何恺明Mask R-CNN

EfficientNet

EfficientNet是一种模型缩放方法,由谷歌基于AutoML开发,在ImageNet测试中实现了84.1%的准确率,刷新记录。

虽然准确率只比在其之前的SOTA模型Gpipe提高了0.1%,但模型更小更快,参数量和FLOPs都大幅减少,效率提升10倍之多。

其作者是来自谷歌大脑的工程师Mingxing Tan和首席科学家Quoc V. Le。

相关地址

GitHub:

https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet

论文:

https://arxiv.org/abs/1905.11946

延伸阅读

谷歌开源缩放模型EfficientNets:ImageNet准确率创纪录,效率提高10倍

Detectron2

这项超强PyTorch目标检测库来自Facebook。

比起初代Detectron,它训练比从前更快,功能比从前更全,支持的模型也比从前更丰盛。一度登上GitHub热榜第一。

实际上,Detectron2是对初代Detectron的完全重写:初代是在Caffe2里实现的,而为了更快地迭代模型设计和实验,Detectron2是在PyTorch里从零开始写成的。

并且,Detectron2实现了模块化,用户可以把自己定制的模块实现,加到一个目标检测系统的任何部分里去。

这意味著许多的新研究,都能用几百行代码写成,并且可以把新实现的部分,跟核心Detectron2库完全分开。

Detectron2在一代所有可用模型的基础上(Faster R-CNN,Mask R-CNN,RetinaNet,DensePose),还加入了了Cascade R-NN,Panoptic FPN,以及TensorMask等新模型。

相关地址

GitHub:

https://github.com/facebookresearch/detectron2

延伸阅读

GitHub趋势榜第一:超强PyTorch目标检测库Detectron2,训练更快,支持更多任务

更强的GAN们

2019年,GAN们依然活跃。

比如同样来自Google DeepMind的VQ-VAE二代,生成的图像比BigGAN更加高清逼真,而且更具多样性:

https://arxiv.org/abs/1906.00446

BigBiGAN,不仅能生成质量优秀的图像,还在图像分类任务上刷新了记录:

https://arxiv.org/abs/1907.02544

以色列理工学院和谷歌联合出品,拿下ICCV2019最佳论文的SinGAN

https://arxiv.org/abs/1905.01164

英伟达的StyleGAN也高能进化成为StyleGAN2,弥补了第一代的各种缺陷:

https://arxiv.org/abs/1912.04958

延伸阅读

史上最佳GAN被超越!生成人脸动物高清大图真假难辨,DeepMind发布二代VQ-VAE

刷新ImageNet纪录,GAN不只会造假!DeepMind用它做图像分类,秒杀职业分类AI

ICCV2019最佳论文SinGAN全面解读,看这一篇就懂了

如果没有StyleGAN2,真以为初代就是巅峰了:英伟达人脸生成器高能进化,弥补重大缺陷

2020年趋势

展望2020年,Analytics Vidhya认为,视觉领域的重点,依然会聚焦在GAN上:

styleGAN2等新方法正在生成越来越逼真的面部图像,检测DeepFake将变得越来越重要。视觉和(音频)都将朝向这个方向进行更多研究。

而元学习和半监督学习,则是2020年的另一大重点研究方向。

强化学习(RL):星际DOTA双双告破,可用性更强

2019年,现有的强化方法扩展到了更大的计算资源方面,并取得了一定的进展。

在过去的一年里,强化学习解决了一系列过去难以解决的复杂环境问题,比如在Dota2和星际2等游戏中战胜了人类顶尖职业玩家。

报告指出,尽管这些进展引起了媒体行业极大的关注,但是当前的方法还是存在著一些问题:

需要大量的训练数据,只有在有足够准确和快速的模拟环境的情况下,才能获得训练数据。许多电子游戏就是这种情况,但大多数现实世界中的问题却不是这样。

由于采用了这种训练模式,因此,大规模的强化学习演算法,感觉就像只是在问题空间的过度密集采过度产生的策略 ,而不是让它学习环境中的潜在因果关系并智能地进行概括。同样,几乎所有现有的Deep RL方法在对抗性样本、领域外泛化和单样本学习方面都非常脆弱,目前还没有好的解决方案。

因此,Deep RL的主要挑战是逐渐从应对确定性的环境,转向专注于更基本的进步,例如泛化、转移学习和从有限数据中学习等等。从一些机构的研究趋势中,我们可以看出这一点。

首先OpenAI发布了一套类似于健身房的新环境,该环境使用过程级别生成来测试Deep RL演算法的泛化能力。

许多研究人员开始质疑并重新评估我们对「智能」的实际定义。我们开始更好地了解神经网路的未被发现的弱点,并利用这些知识来建立更好的模型。

延伸阅读

1-10落败,5分钟崩盘!星际2职业高手史上首次被AI击溃,AlphaStar一战成名

碾压99.8%人类对手,三种族都达宗师级!星际AI登上Nature,技术首次完整披露

2:0!Dota2世界冠军OG被OpenAI碾压,全程人类只推掉两座外塔

Dota2冠军OG如何被AI碾压?OpenAI累积三年的完整论文终于放出

2020年趋势

总而言之,2020年的预测趋势如下:

从有限的数据中学习和推广将成为强化学习研究的中心主题;

强化学习领域的突破与深度学习领域的进步紧密相关;将有越来越多的研究利用生成模型的力量来增强各种训练过程。

交叉型研究:AI深入多学科研究

随著人工智慧技术的发展,跨学科研究也成为了今年的热门。AI的身影,频现于医学、脑机介面乃至数学研究当中。

脑机介面

在马斯克、Facebook纷纷押注的脑机介面领域,深度学习正在帮助研究人员解码大脑所想。

比如加州大学旧金山分校这项登上Nature的研究:利用深度学习直接读懂大脑,将大脑信号转换成语音。

此前的语音合成脑机介面每分钟只能生成8个单词,而这项研究中的新装置,每分钟能生成150个单词,接近人类自然语速。

医学

在医学领域,机器学习技术也不仅仅在医疗影像识别上发挥作用。

比如,德国组织工程和再生医学研究所的一项研究,就利用深度学习演算法DeepMACT,自动检测和分析了整个小鼠身体中的癌症转移灶。

基于这项技术,科学家首次观察到了单个癌细胞形成的微小转移位点,并且把工作效率提高了300倍以上。

「目前,肿瘤临床试验的成功率约为5% 。我们相信DeepMACT技术可以大大改善临床前研究的药物开发过程。因此,这可能有助于为临床试验找到更强大的候选药物,并有望帮助挽救许多生命。」研究的通讯作者Ali Ertürk表示。

数学

虽说数学是自然科学的基础,但在AI不断的发展下,也起到了一定「反哺」作用。

Facebook发表的一项新模型,可以在1秒时间内,精确求解微分方程、不定积分。

不仅如此,性能还超越了常用的Mathematica和Matlab。

积分方程和微分方程,都可以视作将一个表达式转换为另一个表达式,研究人员认为,这是机器翻译的一个特殊实例,可以用NLP的方法来解决。

方法主要分为四步:

  • 将数学表达式以树的形式表示;
  • 引入了seq2seq模型;
  • 生成随机表达式;
  • 计算表达式的数量。

研究人员在一个拥有5000个方程的数据集中,对模型求解微积分方程的准确率进行了评估。

结果表明,对于微分方程,波束搜索解码能大大提高模型的准确率。

在包含500个方程的测试集上,商业软体中表现最好的是Mathematica。

而当新方法进行大小为50的波束搜索时,模型准确率就从81.2%提升到了97%,远胜于Mathematica(77.2%)

并且,在某一些Mathematica和Matlab无力解决的问题上,新模型都给出了有效解。

展望2020年机器学习

从NLP到计算机视觉,再到强化学习,2020年有很多值得期待的东西。以下是Analytics Vidhya预测的2020年的一些关键趋势:

到2020年,机器学习的职位数量将继续呈指数级增长。很大程度上是由于NLP的发展,许多公司将寻求扩大团队,这是进入该领域的好时机。

数据工程师的作用将更加重要。AutoML在2018年起飞,但并没有在2019年达到预期高度。明年,随著AWS和Google Cloud的现成解决方案变得更加突出,我们应该更多地关注这一点。2020年将是我们终于看到强化学习突破的一年吗?几年来一直处于低迷状态,因为将研究解决方案转移到现实世界已证明是一个主要障碍。

最后,不妨比照2018的回顾报告,给2019年AI技术表现打个分吧~

一文看尽2018全年AI技术大突破

—完—

@量子位 · 追踪AI技术和产品新动态

深有感触的朋友,欢迎赞同、关注、分享三连?? ? ?


我来谈一谈计算机视觉领域的进展吧。一句话总结就是:计算机视觉突破固化,OCR引擎更具商用价值。

从人脸识别到 AI 换脸,再到对换脸的检测,构建更加可信的 AI 体系;从 OCR 对简单名片的扫描,到任意场景图像中对任意语言、任意列印和手写字体文字的精确识别,再到其在 RPA(Robotic Process Automation,机器人流程自动化)场景中的实际应用,大大提升企业运营效率;计算机视觉相关技术的发展势如破竹,并且总是掀起一波又一波的探讨与关注。

为了进一步加快计算机视觉技术在实际应用的成熟落地, 微软亚洲研究院在多个方面都取得了突破性的进展。其中有些大大提升了实验室环境下识别的性能和准确率,例如,不局限于图像分类的、面向更为广泛的视觉识别应用(如图像分割、姿态估计等)网路架构的设计;在视觉和语言结合的交叉领域,新的多模态预训练问题。而有些突破则与实际应用场景结合得更加紧密,如对 AI 换脸的辨识;在商业文档、票据场景中 OCR 的应用等。

(注:关注微信公众号:微软研究院AI头条(ID:MSRAsia),搜索「计算机视觉领域2019推荐论文列表」,即可查看文中提及的相关论文详细信息列表)

HRNet:更广的网路结构,突破固化模式

自2012年 AlexNet 被提出以来,深度卷积神经网路结构的设计经历了许多模式的变迁,大致有三种维度的拓展:更深,运用 highway、residual connections 或者 skip connections 有效地训练深度神经网路;更宽,利用多分支网路来增加网路宽度;更轻,利用组卷积、参数和响应量化等减小网路冗余。

目前主流的结构,包括 AlexNet、VGGNet、GoogleNet、ResNet、DenseNet 等,基本上都是为图像分类设计的,沿用了之前 LeNet-5 的设计模式,即卷积是从高解析度到低解析度串联起来的,因而只能学到空间粗粒度的低解析度表征。而用于目标检测、图像语义分割、人体骨架点检测、人脸关键点检测等其他任务高解析度表征学习网路,如 Hourglass、U-Net、Encoder-decoder、SegNet、DeconvNet、FPN 等,基本把用于分类的低解析度网路结构作为主干网路,附加额外串联的卷积网路分支以恢复高解析度。

在微软亚洲研究院看来,这些设计中有两点值得反思:学习高解析度表征网路一定要从用于分类的低解析度网路结构出发?或者把它作为主干吗?表征的解析度一定要逐步减小,然后恢复吗?

基于此,微软亚洲研究院提出了一种新型的、「更广」的网路结构High-Resolution Network (HRNet)[1],试图改变上述两个固化的、近乎标准化的网路设计模式。

HRNet 网路架构

HRNet 在整个过程中始终保持有高解析度表征,每个解析度的卷积形成一个分支,然后把多个分支并联,进行多次不同解析度表征的信息融合,以学到空间精度高、语义强、高解析度的表征。HRNet 适用范围广泛,可以适用于图像分类,特别是在目标检测、图像语义分割、人体骨架点检测、人脸关键点检测等任务都取得了领先的结果。其代码也已开源,被计算机视觉等领域的同行广泛接受并使用。

VL-BERT:多模态预训练

预训练+微调是深度学习应用的一个重要范式。通常来说深度学习依赖于大量标注数据,因此主要适用于拥有大量标注数据的任务和场景,但预训练范式的出现,使得深度学习方法也能广泛并有效地应用于具有中等或少量标注数据量的任务。

在计算机视觉与自然语言处理领域,尽管使用单模态的预训练模型已被广泛证明可提高下游任务性能,但针对多模态学习的任务,单模态预训练模型无法帮助其捕捉多模态数据间的关联关系。

由此,微软亚洲研究院提出了针对多模态数据的预训练模型 VL-BERT [2],在大规模图片文本数据集中进行多模态联合预训练后得到的模型,可帮助关联与对齐不同模态数据间的线索,在视觉问答、视觉常识推理与引用表达式理解等下游多模态联合理解任务中均有显著的性能提升。

VL-BERT 网路架构

让假脸无处遁形的新演算法

最近 AI 换脸技术发展迅速,例如此前在全球引起轩然大波的 DeepFake,我们前段时间也介绍了更多 AI 换脸的技术和应用。这些逼真的换脸图片让人难辨真假,信任与安全都受到威胁。为了解决这个问题,学界与业界正在研究如何利用 AI 技术去反向鉴别图像、视频的真伪。

AI 换脸与换脸鉴别如同一场攻防战,目前,最常被使用的 AI 换脸演算法有三种:DeepFake、FaceSwap 和 Face2Face。微软亚洲研究院研发的换脸鉴别演算法,对人脸合成时难以处理的细节进行检查,如眼镜、牙齿、头发边缘、脸部轮廓,将它们作为演算法关注的重点,从而提高识别准确率。在 FaceForensics++ 资料库的测试结果也均超越了人类肉眼的识别率以及此前业界的最好水平:对于 DeepFake,FaceSwap 和 Face2Face 的鉴别率均超过99.6%。

微软新一代 OCR 引擎:更具商用价值

光学字元识别(OCR)是计算机视觉的重要组成部分之一,它能够检测、识别图片中的文本信息并将其转换成计算机文字,目前已被广泛应用于各种企业级和消费级应用场景中,如在机器人流程自动化场景中,可利用 OCR 和文档理解技术来实现商业文档票据的信息抽取及录入、内容审核、归纳搜索等日常文档处理任务的自动化处理;在增强现实场景中,利用 OCR 技术来提取图像或视频中的文字来帮助用户进行信息检索或者翻译。

微软亚洲研究院发现,近年来的学术研究主要集中在如街景这样的自然场景图像的文字检测和识别上,而忽略了商业文档、票据场景。过去的一年,微软亚洲研究院一直致力于新一代 OCR 引擎的研发,以满足更多场景的需求。

通用文字检测:文本行检测准确率大幅提升

通用文字检测的目标是主要利用图像纹理信息,检测出任意场景图像中任意语言、任意列印和手写字体文字的精确位置。根据所检测文字的粒度,常用的文字检测演算法可以划分为三类:字元级别、词级别和文本行级别。由於单独依靠图像纹理信息很难精确标注出所有语言字元级别和词级别的外接框,比如,对于英文连笔手写,很难精确地标注出所有字母的外接框;对于中文,由於单词之间没有空格,无法直接依靠图像纹理信息来标注词的外接框,因此,研究员们认为,文本行级别的文字检测演算法更适用于通用文字检测。

从图像中检测出任意形状文本行的精准外接框是一个非常困难的研究问题,这是因为图像中的文本行具有极大的多样性,比如具有各种各样的形状、大小、方向、排版方式、字元间距,包含各种语言、字元、字体、风格,可能受到拍摄环境的影响产生变形(如透视变换、仿射变换等)、残缺、模糊断裂、非均匀光照等等。

相较于其它物体检测任务,文字检测任务对检测出的外接框的精准度要求更高,因为微小的偏差会导致字元的漏检。此外,某些自然场景图像中可能包含与文字非常类似的背景纹理,极易造成误检。对此,工业界和学术界都投入了大量资源来寻找解决方案,众多基于卷积神经网路的新型文字检测演算法涌现出来,并大致可以分为两类。

一类是把文字检测看成是一种特殊的物体检测或者实例分割问题,然后改进最先进的物体检测或者实例分割框架如 Faster R-CNN, Mask R-CNN 等来检测任意形状的文字。这类演算法对于检测拉丁单词很有效,但是受限于区域生成网路(Region Proposal Network,RPN)的局限性,难以有效检测密集长文本行。另一类演算法是先用物体检测演算法检测出文本行片段或用图像分割演算法从像素级别分割出文本区域,然后利用拼行演算法把文本行片段或文本像素串成文本行,这类演算法的难点在于,如何有效地将文本行片段或文本像素串成文本行。相较于基于文本行片段的演算法,目前基于像素的演算法在任意形状文字检测公开数据集上可以得到更好的结果。尽管如此,基于像素的演算法仍然无法有效解决文本行中字元间距较大的问题,这一问题广泛存在于中文票据、菜单等场景中。

为了进一步解决这些问题,微软亚洲研究院创新地提出了一套基于关系网路(Relation Network)的新型文字检测框架[3],主要思想是将文字检测看成是视觉关系检测(Visual Relationship Detection)问题而非物体检测或实例分割问题。

基于关系网路(Relation Network)的新型文字检测框架

具体来说,针对文字检测中的一些子问题(如拼行、冗余检测框抑制等),先用物体检测演算法检测出不同粒度的文本基元,然后将这些具体问题抽象为基元之间相应关系的预测问题,再利用关系网路预测这些关系。例如,为了解决文本行拼行问题,文本基元可以定义为文本片段,然后先检测出文本片段,再用关系网路去预测临近片段是否有「连接」关系。实验表明,关系网路可以有效利用上下文信息提高较远文本片段「连接」关系预测的准确率,文本行检测的准确率也大大提升。

除此之外,为了得到更高质量的文本行片段预测,微软亚洲研究院的研究员们发现之前主流物体检测框架中的区域生成网路(RPN)受限于锚点(anchor)设计的缺陷,无法高效预测任意方向的文本框,于是提出了 anchor-free RPN 的物体检测演算法[4]。该演算法不仅在单词级别的文字检测任务上取得了很好的结果,而且类似思想在当前物体检测领域也成为主流方法之一。

通用文字识别:大规模并行训练,模型压缩

将检测模块得到的文本行图像数据归一化到固定高度之后,需要使用通用文字识别技术,将图像对应的文本内容识别出来。文本行图像数据由于受光照、几何变换、背景、字体、风格、解析度等的影响,形状纹理尺寸变化多端,对识别工作提出了挑战,不过基于深度学习技术的发展,这些问题可以采用端到端的文本识别方案解决。

常见的端到端文本行识别方法有两大类,一类以卷积神经网路作为特征提取器,以循环神经网路作为序列建模器,利用连接时序分类(Connectionist Temporal Classification, CTC)作为训练准则,即 CRNN-CTC 方法;另一类是基于注意力机制的序列到序列编码-解码方法。受限于自回归式的解码方式,编码-解码方法训练复杂度高,解码时延大,而 CRNN-CTC 方法基于条件独立假设,在快速解码的同时,还可以通过加权有限状态转换机(Weighted Finite State Transducer, WFST), 可以和语言模型、词典等先验信息巧妙地融合在一起,进一步提升效率和准确度。

微软新一代 OCR 识别引擎采用的便是 CRNN-CTC 结合 WFST 的方案,不过将 CRNN-CTC 模型应用于产品,还面临诸多挑战。首先 CRNN-CTC 模型的卓越性能需要依赖大规模的训练数据,传统的单机训练方法会大大增加产品开发周期,研究员们在GPU训练集群上采用基于逐块模型更新滤波(Blockwise Model-Update Filtering, BMUF)[5]的分散式优化框架解决了这一问题。

作为一种通用分散式优化框架,随著计算资源的增加,BMUF 可以在线性加速训练过程的同时,不损害模型的识别性能。另一方面,为了保障识别性能,CRNN 模型参数多、计算量大、识别耗时长、部署代价高,为了成功应用于产品,需要对模型进行压缩和加速。经过分析微软亚洲研究院的研究员发现,CRNN 的计算主要集中于 CNN 部分,针对部署要求,研究员们借鉴 YOLO 框架中的高效 TinyDarkNet 结构作为 CNN 部分,对原基于 VGG 的 CNN 部分在 RNN 部分指导下进行知识蒸馏,然后采用张量分解演算法进一步压缩模型降低计算量,压缩的模型推断速度加快了14倍[6],解决了部署难题。

统一模型,同时支持多场景、多语言、混合列印和手写体文字的识别

微软新一代的 OCR 引擎可以同时支持列印体和手写体的复杂文字场景识别。在日常生活中,很多表格单据上同时包含有列印体和手写体文字。传统的 OCR 识别引擎需要有一个专门的分类器来预先判定文本行对应的字体类型,再调用各自对应的识别模型进行文本内容的识别。如果一行文本中同时包含有列印体和手写体,则还需对文本行做单词级别更加细致的切分。经过大量的实验验证,微软亚洲研究院的研究员们发现通过数据和模型共享,一个统一的模型能很好地同时识别列印体和手写体文本行,效果媲美各自独立的识别模型。

如何快速、经济地将新一代的英文 OCR 技术推广应用到其它语言中,是 OCR 落地的另一个重要课题。相比于各个语言独立部署的传统方式,微软亚洲研究院探索了每个语系共享一套识别模型的新思路。以拉丁语系为例,包括英文、德文、法文、西班牙文、义大利文和葡萄牙文在内的所有拉丁语言共享同一个字元模型和语言模型。

由于每一个语言的字符集和语法规则不同,如果简单地将各个语言的辞汇表累加,则会形成过大的辞汇表,从而得到一个很大的语言模型。另一方面,如果控制辞汇表的长度,又会带来非常严重的集外词(Out of Vocabulary, OOV)问题。OOV 问题是一个普遍存在的问题,学术上尚无完美的解决方案。在上一版的英文识别系统中,微软采用的是由词、子词以及混合词语言模型插值得到的混合语言模型来部分解决这一问题[7]。

新一代的 OCR 引擎中,为了得到一个长度可控,各语言共享的辞汇表,采用了在自然语言处理领域中广泛使用的位元组对编码(Byte Pair Encoding,BPE)技术,自动从大量语料中习得常见的语言单元,并以此作为语言模型的建模单元。与以单词作为语言单元相比,BPE 语言单元的使用极大地减少了辞汇表的大小,使得所有拉丁语言共享同一个语言模型成为可能,同时也极大程度地解决了集外词问题。实验表明,基于 BPE 语言单元集的共享语言模型能力与各语言独立训练的「词/子词」混合语言模型能力相当。

得益于微软亚洲研究院研发的新一代通用文字检测和文字识别技术,以及相关产品部门的紧密合作,这一 OCR 引擎可以从各种场景(如文档、票据、街景、商品、菜单、广告等)图片中准确高效地检测和识别出各种列印和手写体文字。该引擎目前已服务于微软 Power Platform、Office 365、Dynamics 365、Bing、Azure Cognitive Services 等产品。在不久的将来,微软新一代 OCR 引擎将支持更多语言(包括中文)并具有版面分析和表格识别能力,配以文档理解技术,微软 OCR 将进一步推动数字化转型,予力全球更多人、更多组织,成就不凡。

更多计算机视觉的研究,超乎你想像

微软亚洲研究院还在许多重要的、受关注的计算机视觉领域持续进行研究。包括:

? 图和关系网路的视觉建模:关系网路 [8]、区域特征学习 [9]、局部关系网路 [10]、全局关系网路 [11]、空间注意力机制 [12];

? 半监督和小样本学习:深度度量迁移学习 [13];

? 更强的视觉表示和计算方法:可变形卷积网路2.0 [14]、基于点集的物体表示方法[15];

? 视觉物体跟踪:两种对语义与外观进行有效平衡的框架[16, 17];

? 深度估计:双网路结构 [18]、室内环境下的无监督深度估计 [19];

? 三维人体姿态估计:跨摄像头特征融合网路 [20]、Locally Connected Network [21]、低维流形估计 [22];

? 行人和物体重识别:基于人体姿态引导的人体部件对齐的方法 [23]、基于人体空间语义对齐的方法 [24]、多图联合学习和知识蒸馏 [25];

? 图像生成:掩码导向的人脸编辑 [26]、基于金字塔式注意力机制的上下文编码网路的图像修复[27];

? 基于二维时间图的视频表征学习 [28];

? 以及轻便深度图像分割网路 [29]。

(注:关注微信公众号:微软研究院AI头条(ID:MSRAsia),搜索「计算机视觉领域2019推荐论文列表」,即可查看文中提及的相关论文详细信息列表)


本账号为微软亚洲研究院的官方知乎账号。本账号立足于计算机领域,特别是人工智慧相关的前沿研究,旨在为人工智慧的相关研究提供范例,从专业的角度促进公众对人工智慧的理解,并为研究人员提供讨论和参与的开放平台,从而共建计算机领域的未来。

微软亚洲研究院的每一位专家都是我们的智囊团,你在这个账号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。请大家不要吝惜手里的「邀请」,让我们在分享中共同进步。

也欢迎大家关注我们的微博和微信 (ID:MSRAsia) 账号,了解更多我们的研究。


越来越证明了科研是有钱人的玩意。


应用层能走多远,你就去看看基础理论已经发展到哪里了吧。

如果基础数学、计算机科学领域没什么重大突破,那应用层面也罕见太多的技术突破。


不过我相信,在早期些年人们将注意力集中在5G与消费电子领域而忽视那些在人工智慧领域丰厚积淀的公司如:微软、百度、谷歌等,在人工智慧浪潮的到来之时,必会重新引起世界的瞩目。


非从业人员,也非相关专业学生。

2019年关于人工智慧,我了解到最多的是有关高考招生的。(因为自己和自己熟悉的同学们都在今年高考嘛

19年许多高校单独设立人工智慧专业,包括像t大叉院的「智班」,MIT把eecs系拆分ai与决策单独设系,等等。也有同学对人工智慧非常非常感兴趣,一直把南大的ai专业作为高三的目标,高考失利后则继续梦想于考取周志华教授的研究生。

我个人了解到的,ai研究的思维方式确实与传统cs有一定差异,但ee cs和数学仍然是ai研究的基础中的基础。所以本科教育所看重的其实还是与cs相似,只是会相对有一些差异性的培养。所以单独设系更能体现的其实是教育行业的重视,和科技行业未来多年的趋势。至于教育方面的意义,我便也不便论述了。

另一方面,ai和很多领域在做结合,在cv领域大放异彩。我是学影视的,也在思考如何利用ai的技术来发展影视技术,或者更进一步与计算机图形学的相互作用,这样的问题。当然这些前提都是我要对本专业和cs都有足够的学习深度。所以,给自己加油吧。

没有干货没有重大新闻,只是描述了一下个人19年对ai行业的一点点看法,孤陋寡闻,缺乏深度,大家随意看看就好。我是很喜欢ai这样的技术的。


推荐阅读:
相关文章