什麼是計算機視覺？

圖像分類、目標檢測、圖像分割之類的項目已經有很多了，在這裡推薦一個比較特別的競賽項目：

場景文本視覺問答

（即在場景圖像中，藉助文本信息來回答問題，這是「ICDAR 2019 Robust Reading competitions」中一個重要的挑戰方向）

Q表示提出的問題，A表示回答

在上面的幾幅圖中，提出一個問題，比如，香蕉多少錢，火車行駛方向，人類可以輕易地獲得信息並得到答案，但是這樣的任務對於計算機可不太友好。

在以往的視覺問答（Visual Question Answer，VQA）問題中，一般不考慮數據集圖像中文本傳達的豐富語義信息。但實際上，人類生活環境中的文本內容傳達了重要的高級語義信息，這些信息是明確的，並且場景中其他形式的內容都提供不了這些信息。

以往的視覺問答基本都是根據圖像中的非文本信息進行判斷

圖片來源：VQA

事實上，利用圖像中的文本信息，可以解決非常多的日常問題，比如購物時一目了然的商品價格，道路、列車的指引標識，在城市中定位，檢查商店是否營業……帶有文本信息的圖像佔比非常大，比如，在MS Common Objects in Contex這個大規模的數據集中，大約50%的圖像中存在文本信息，在城市中，這一比例更高。因此，確保文本得到正確解釋對整體的場景解釋非常重要。

但目前的自動場景解釋模型，如視覺問答（Visual Question Answer，VQA）模型，由於忽視了場景文本內容，存在嚴重的局限性。

為了讓場景得到更好的解釋，研究人員開始關注圖像中的文本信息。在「ICDAR 2019 Robust Reading competitions」這個競賽中，場景文本視覺問答就是一個重要的挑戰方向。

研究場景文本視覺問答是為了回答下面這樣的問題：

貨架上最便宜的米漿是什麼？

圖中的藍色巴士要去哪裡？

在這項競賽中，研究人員創建了一個包含文本的圖像數據集ST-VQA（Scene Text Visual Question Answering），用來證明將圖像中存在的高級語義信息作為VQA過程中的文本線索的重要性。

ST-VQA數據集整合了六大數據集的圖像，包括場景文本理解數據集和通用計算機視覺數據集兩種類型。在收集數據時，使用端到端的單發文本檢索架構（single shot text retrieval architecture）選擇圖像，從而定義問題和回答。自動選擇的圖像至少包含2個文本實例，確保提出的問題至少包含2個可能的答案選項。最後創建的ST-VQA數據集包含23038幅圖像，31791個問題。

從下面這張圖中可以看到，在ST-VQA數據集中，提出了諸如「是什麼（what are）」、「什麼品牌（what brand）」、「哪一年（what year）」等各種各樣的問題。

另外，這些問題是以一種需要具備某些先驗知識的方式制定的，例如，在一些關於什麼品牌、什麼網站、什麼名稱、巴士號碼是什麼的問題中，首先需要了解品牌、網站、名稱、號碼的定義。

ST-VQA數據集提出者們還應用了很多當前流行的方法和模型來測試它們在這個數據集中的表現效果，比如：

Scene Image OCR：使用一個端到端的網路構建文本識別模型，處理圖像。
Show, Ask, Attend and Answer（SAAA）：包含一個CNN-LSTM網路架構，使用了ResNet-152網路和一個多層的LSTM網路。
Stacked Attention Networks（SAN）：使用了一個預訓練好的VGGNet，獲取尺寸為14 × 14 × 512的圖像特徵。並通過使用RMSProp（Root Mean Square Prop）演算法，修改起始學習率以及衰變值來優化該演算法。

……

這些模型已經能夠回答一部分場景文本視覺問答中的問題：

這是幾種不同方法在ST-VQA數據集上回答問題的結果。在每幅圖像中，Q代表問題，A（藍色）代表真實的答案，下面是幾種不同方法提供的答案（綠色代表回答正確，紅色代表回答錯誤）。

具體的方法細節可以參考Scene Text Visual Question Answering 這篇文章。這個項目的數據集也已經在ICDAR 2019的官網上公開，感興趣的話可以去下載數據集並動手實驗一下，當你的方法能夠正確回答出問題甚至取得更好的效果時，相信你會很有成就感的

更多好玩的科技資訊可關注

@人民郵電出版社，我們會持續推出優質的計算機知識和圖書資源。

機器視覺是最常用的人工智慧應用之一，比較好的介紹可以看維基百科。

https://en.wikipedia.org/wiki/Computer_vision

計算機視覺（Computer Vision）就是利用計算機來處理圖像，獲得我們想要的信息。在人工智慧領域，計算機視覺的含義則更近一步，不再是簡單的獲取圖像和對圖像進行簡單的處理，如裁剪、縮放、濾波等，而是如何像人一樣理解圖像。這一領域的先驅可追溯到更早的時候，但是直到20世紀70年代後期，當計算機的性能提高到足以處理諸如圖像這樣的大規模數據時，計算機視覺才得到了正式的關注和發展。

比如下面這張圖，在人的眼裡，能很容易識別出一個男人、斑馬線、黑色的背包、手機等等，同時還可以理解到這些物體之間的關係，一個背著黑色背包的男人正打著電話在過斑馬線。甚至還可以進行進一步的推理，如根據這個男人的著裝，那麼他可能是一個喜歡運動的人。

但是在計算機的眼裡則是從0到255的數字（像素的範圍），對於彩色圖像，還有三個通道。那麼我們如何讓機器也能同人一樣能夠識別和理解蘊含在圖中語義信息，這就是計算機視覺要做的事情。

計算機視覺的目前主要包括：最基礎的如物體的檢測和識別，在此基礎上的動作姿態識別，物體跟蹤，圖像修復和增強等。

更進一步的則是圖像理解的研究。比如下面這張圖，首先需要識別出來圖中存在的所有的物體，給他們標籤。比如左圖中，識別出來大象（elephant）、河流（river）等等，甚至包括描述性的信息如臟（dirty）、躺（laying），站立（standing）等。再對這些標籤進行語義上的重組，構成一句話。而該圖中仍然存在不少問題，如識別出了圖中不存在的物體如馬、人等。結果導致輸出的句子（黑色）同真實句子（藍色）存在較大的差異。