iCAN:以人為中心的「人-物」交互檢測網路

來自專欄機器之心81 人贊了文章

選自arXiv,作者:Chen Gao、Yuliang Zou、Jia-Bin Huang,機器之心編譯。

視覺識別近年來發展迅速,包括物體檢測、分割和動作識別。但是,理解場景不僅需要檢測單個物體實例,還需要識別物體對之間的視覺關係,其中尤為重要的一環是檢測並識別每個人如何與周圍物體交互,即人-物交互(HOI)檢測。本文提出了一種以實例為中心的端到端可訓練注意力網路——iCAN,學習使用人或物體實例的外觀來突出信息區域。該網路在COCO 和 HICO-DET兩個HOI 基準數據集上取得了新的當前最佳性能。

圖 1:人 - 物體交互檢測。給定輸入圖像(左)和圖像中檢測到的對象實例(中),利用本文提出的模型檢測並識別每個人之間的交互以及與他們交互的物體(右)。

引言

在過去幾年裡,視覺識別任務飛速發展,包括物體檢測 [8,10,27,34]、分割 [5,11,18,28] 和動作識別 [6,9,13,30,41]。但是,理解場景不僅需要檢測單個物體實例,還需要識別物體對之間的視覺關係。視覺關係檢測中尤為重要的一環是檢測並識別每個人如何與周圍物體交互。

該任務稱為人-物交互(HOI)檢測 [4,14,15,16],旨在定位人、物體並識別人與物體之間的交互。圖 1 中展示了 HOI 檢測問題的一個例子。給定輸入圖像和物體檢測器檢測到的實例,研究者的目標是識別出所有的「人-動詞-物體」三元關係組。

為何是 HOI?檢測和識別 HOI 是朝著更深入理解場景邁出的重要一步。而不是「哪裡有什麼?」(即,在圖像中定位物體實例),HOI 檢測的目標是回答「發生了什麼?」的問題。研究 HOI 檢測問題也為其他相關的高級視覺任務提供了重要線索,例如姿態估計 [2,40],圖像標註 [24,39] 和圖像檢索 [21]。

為何要注意力?受物體檢測進步 [18,34]的推動,最近的一些工作致力於檢測圖像中的 HOI [4,14,16,35]。大多數現有方法使用人和物體的外觀特徵以及它們的空間關係來推斷交互。除了僅使用人的外觀特徵之外,最近的動作識別演算法還利用來自圖像的語境線索。如圖 2 所示,編碼語境的例子包括通過使用人類和物體邊界框 [29] 的並集,提取人類姿勢關鍵點周圍的特徵 [6],或從整個圖像中利用全局語境 [31] 來選擇一個輔助框 [13]。雖然結合語境通常有助於提高性能,但這些手工設計的注意力區域可能並不總是與識別的動作/交互相關。例如,加入人體姿勢可能有助於識別「騎行」和「投擲」等行為,加入交互點可能有助於識別涉及手 - 物體交互行為,例如「用杯子喝水」和「用勺子吃飯」,加入背景可能有助於區分「用網球拍擊中」和「用棒球棍擊中」。為了解決這一局限,最近的工作利用端到端的可訓練注意力模塊進行動作識別 [9] 或圖像分類 [20]。但是,這些方法是為圖像級分類任務而設計的。

圖 2:上下文特徵示例。除了使用人和物體的邊界框之外,從圖像捕獲語境線索的不同方式。

本文提出了一種以實例為中心的端到端可訓練注意力模塊,學習使用人或物體實例的外觀來突出信息區域。直覺是,實例(人或物體)的外觀暗示了我們應該注意圖像中的哪些位置。

例如,為了更好地確定一個人是否拿有物體,應該將注意力集中在人手周圍。另一方面,對於圖像中的自行車,知道附近人的姿勢有助於消除關於物體實例(例如,騎或推自行車)的潛在交互的歧義。本文提出的以實例為中心的注意力網路(iCAN)動態地為每個檢測到的人或物體實例生成注意力映射,突出顯示與該任務相關的區域。研究者驗證了該網路設計在 HOI 檢測的兩個大型公開基準測試中的性能:COCO 中的動詞(V-COCO)[16] 和人類與常見物體的交互(HICO-DET)[4] 數據集。結果表明,研究者提出的 iCAN與現有的最佳方法相比具有一定的優勢, 比現有最佳演算法在 V-COCO 上的性能相對提高約 10%,HICO-DET 約 49%。本研究主要有以下四個貢獻。

1. 引入了一個以實例為中心的注意力模塊,它允許網路動態突出信息區域以改進 HOI 檢測。

2. 在兩個大型 HOI 基準數據集上取得了新的當前最佳性能。

3. 進行了詳細的對比實驗和誤差分析,以確定各個組成部分的相對貢獻,並量化不同類型的錯誤。4. 發布了源代碼和預訓練模型,以促進將來的研究。論文:iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection

論文鏈接:arxiv.org/pdf/1808.1043

摘要:檢測和識別單物體實例近年來取得了快速進展。然而,為了理解場景中的情況,計算機需要理解人類如何與周圍物體交互。研究者在本文中解決了檢測人-物交互(HOI)的困難任務。其核心思想是人或物體實例的外觀包含指示線索,利用這些信息可以注意到圖像中可以促進交互預測的部分。為了利用這些線索,研究者提出了一個以實例為中心的注意力模塊,學習根據每個實例的外觀動態突出顯示圖像中的區域。這種基於注意力的網路允許研究者選擇性地聚合與識別 HOI相關的特徵。研究者驗證了網路在 COCO 和 HICO-DET 數據集中對動詞的有效性,並表明本文的方法優於當前最佳方法。

實驗結果

研究者評估了提出的 iCAN 模型的性能,並基於兩個大型 HOI 基準數據集與當前最佳模型進行了比較。詳細的類級別的性能和誤差診斷等其他結果都可以在補充材料中找到。源代碼和預訓練的模型可在研究者的項目主頁上找到。

表 1:在 V-COCO 測試集上與當前最佳模型的性能比較。

圖 5:V-COCO 測試集上的 HOI 檢測樣本。研究者的模型在生活照中檢測出各種形式的 HOI。模型檢測到在不同情況下與人進行「騎」、「吃」、「躺」和「喝」交互的各種物體。

圖 6:HICO-DET 測試集上的 HOI 檢測樣本。研究者的模型檢測到對同一類別物體的不同類型的交互。

以實例為中心的注意力網路

圖3:模型概述。研究者提出的模型包括以下三個主要流:(1)基於人類外觀檢測交互的人流; (2)基於物體外觀預測交互的物體流;(3)用於編碼人類和物體邊界框之間的空間布局的配對流。基於現有的 Faster R-CNN 檢測到的對象實例,使用所有的人 - 物體對生成 HOI 假設。然後融合來自各個流的動作分數以產生最終預測,如右圖所示。

圖 4:iCAN 模塊。給定圖像的卷積特徵(以灰色顯示)和人/物體邊界框(以紅色顯示),iCAN 模塊提取實例

(人類)或

(物體)的外觀特徵以及來自以實例為中心的注意力映射的特徵。為了計算注意力映射,研究者使用 512 個通道的 bottleneck 來評估嵌入空間中的相似性 [37,38]。具體來說,研究者用 1×1 卷積和實例外觀特徵

將圖像特徵嵌入到全連接層中。這裡的 res5 表示第五個殘差塊,GAP 表示全局平均池化層,FC 表示全連接層。


推薦閱讀:

查看原文 >>
相关文章