图像分类、目标检测、图像分割之类的项目已经有很多了,在这里推荐一个比较特别的竞赛项目:

场景文本视觉问答

(即在场景图像中,借助文本信息来回答问题,这是「ICDAR 2019 Robust Reading competitions」中一个重要的挑战方向)

Q表示提出的问题,A表示回答

在上面的几幅图中,提出一个问题,比如,香蕉多少钱,火车行驶方向,人类可以轻易地获得信息并得到答案,但是这样的任务对于计算机可不太友好。

在以往的视觉问答(Visual Question Answer,VQA)问题中,一般不考虑数据集图像中文本传达的丰富语义信息。但实际上,人类生活环境中的文本内容传达了重要的高级语义信息,这些信息是明确的,并且场景中其他形式的内容都提供不了这些信息。

以往的视觉问答基本都是根据图像中的非文本信息进行判断

图片来源:VQA

事实上,利用图像中的文本信息,可以解决非常多的日常问题,比如购物时一目了然的商品价格,道路、列车的指引标识,在城市中定位,检查商店是否营业……带有文本信息的图像占比非常大,比如,在MS Common Objects in Contex这个大规模的数据集中,大约50%的图像中存在文本信息,在城市中,这一比例更高。因此,确保文本得到正确解释对整体的场景解释非常重要。

但目前的自动场景解释模型,如视觉问答(Visual Question Answer,VQA)模型,由于忽视了场景文本内容,存在严重的局限性。

为了让场景得到更好的解释,研究人员开始关注图像中的文本信息。在「ICDAR 2019 Robust Reading competitions」这个竞赛中,场景文本视觉问答就是一个重要的挑战方向。

研究场景文本视觉问答是为了回答下面这样的问题:

货架上最便宜的米浆是什么?

图中的蓝色巴士要去哪里?

在这项竞赛中,研究人员创建了一个包含文本的图像数据集ST-VQA(Scene Text Visual Question Answering),用来证明将图像中存在的高级语义信息作为VQA过程中的文本线索的重要性。

ST-VQA数据集整合了六大数据集的图像,包括场景文本理解数据集和通用计算机视觉数据集两种类型。在收集数据时,使用端到端的单发文本检索架构(single shot text retrieval architecture)选择图像,从而定义问题和回答。自动选择的图像至少包含2个文本实例,确保提出的问题至少包含2个可能的答案选项。最后创建的ST-VQA数据集包含23038幅图像,31791个问题。

从下面这张图中可以看到,在ST-VQA数据集中,提出了诸如「是什么(what are)」、「什么品牌(what brand)」、「哪一年(what year)」等各种各样的问题。

另外,这些问题是以一种需要具备某些先验知识的方式制定的,例如,在一些关于什么品牌、什么网站、什么名称、巴士号码是什么的问题中,首先需要了解品牌、网站、名称、号码的定义。

ST-VQA数据集提出者们还应用了很多当前流行的方法和模型来测试它们在这个数据集中的表现效果,比如:

  • Scene Image OCR:使用一个端到端的网路构建文本识别模型,处理图像。
  • Show, Ask, Attend and Answer(SAAA):包含一个CNN-LSTM网路架构,使用了ResNet-152网路和一个多层的LSTM网路。
  • Stacked Attention Networks(SAN):使用了一个预训练好的VGGNet,获取尺寸为14 × 14 × 512的图像特征。并通过使用RMSProp(Root Mean Square Prop)演算法,修改起始学习率以及衰变值来优化该演算法。

……

这些模型已经能够回答一部分场景文本视觉问答中的问题:

这是几种不同方法在ST-VQA数据集上回答问题的结果。在每幅图像中,Q代表问题,A(蓝色)代表真实的答案,下面是几种不同方法提供的答案(绿色代表回答正确,红色代表回答错误)。

具体的方法细节可以参考Scene Text Visual Question Answering 这篇文章。这个项目的数据集也已经在ICDAR 2019的官网上公开,感兴趣的话可以去下载数据集并动手实验一下,当你的方法能够正确回答出问题甚至取得更好的效果时,相信你会很有成就感的


更多好玩的科技资讯可关注

@人民邮电出版社,我们会持续推出优质的计算机知识和图书资源。

机器视觉是最常用的人工智慧应用之一,比较好的介绍可以看维基百科。

https://en.wikipedia.org/wiki/Computer_vision

计算机视觉(Computer Vision)就是利用计算机来处理图像,获得我们想要的信息。在人工智慧领域,计算机视觉的含义则更近一步,不再是简单的获取图像和对图像进行简单的处理,如裁剪、缩放、滤波等,而是如何像人一样理解图像。这一领域的先驱可追溯到更早的时候,但是直到20世纪70年代后期,当计算机的性能提高到足以处理诸如图像这样的大规模数据时,计算机视觉才得到了正式的关注和发展。

比如下面这张图,在人的眼里,能很容易识别出一个男人、斑马线、黑色的背包、手机等等,同时还可以理解到这些物体之间的关系,一个背著黑色背包的男人正打著电话在过斑马线。甚至还可以进行进一步的推理,如根据这个男人的著装,那么他可能是一个喜欢运动的人。

但是在计算机的眼里则是从0到255的数字(像素的范围),对于彩色图像,还有三个通道。那么我们如何让机器也能同人一样能够识别和理解蕴含在图中语义信息,这就是计算机视觉要做的事情。

计算机视觉的目前主要包括:最基础的如物体的检测和识别,在此基础上的动作姿态识别,物体跟踪,图像修复和增强等。

更进一步的则是图像理解的研究。比如下面这张图,首先需要识别出来图中存在的所有的物体,给他们标签。比如左图中,识别出来大象(elephant)、河流(river)等等,甚至包括描述性的信息如脏(dirty)、躺(laying),站立(standing)等。再对这些标签进行语义上的重组,构成一句话。而该图中仍然存在不少问题,如识别出了图中不存在的物体如马、人等。结果导致输出的句子(黑色)同真实句子(蓝色)存在较大的差异。


简单通俗的说,计算机视觉就是让计算机像人一样能「看懂」这个世界。计算机视觉处理的常见问题有图像识别,目标检测,目标跟踪,图像重建,图像分割等问题。

随著深度学习技术不断突破,很多以前计算机视觉处理问题的方法在应用深度学习之后,其表现都取得了很大的突破。

作为计算机视觉的一位小白,希望在学习的路上更加努力,踏实的前行,不断进步,加油!


推荐阅读:
相关文章