把ECCV和CVPR還有AAAI 2018年的action recognition匯了個總,放在這裡。


ECCV 2018

Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning

Dividing and Aggregating Network for Multi-view Action Recognition

Deep Bilinear Learning for RGB-D Action Recognition

Modality Distillation with Multiple Stream Networks for Action Recognition

Interaction-aware Spatio-temporal Pyramid Attention Networks for Action Classification

Motion Feature Network: Fixed Motion Filter for Action Recognition

Spatio-Temporal Channel Correlation Networks for Action Classification

Recurrent Tubelet Proposal and Recognition Networks for Action Detection

PM-GANs: Discriminative Representation Learning for Action Recognition Using Partial-modalities

RESOUND: Towards Action Recognition without Representation Bias

CVPR 2018

MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition

Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition

2D/3D Pose Estimation and Action Recognition Using Multitask Deep Learning

Temporal Hallucinating for Action Recognition With Few Still Images

Deep Progressive Reinforcement Learning for Skeleton-Based Action Recognition

Im2Flow: Motion Hallucination From Static Images for Action Recognition

Compressed Video Action Recognition

A Closer Look at Spatiotemporal Convolutions for Action Recognition

Temporal Deformable Residual Networks for Action Segmentation in Videos

PoTion: Pose MoTion Representation for Action Recognition

What Have We Learned From Deep Representations for Action Recognition?

Towards Universal Representation for Unseen Action Recognition

AAAI 2018

Action Recognition from Skeleton Data via Analogical Generalization over Qualitative Representations

Action Recognition with Coarse-to-Fine Deep Feature Integration and Asynchronous Fusion

Cooperative Training of Deep Aggregation Networks for RGB-D Action Recognition

Hierarchical Nonlinear Orthogonal Adaptive-Subspace Self-Organizing Map based Feature Extraction for Human Action Recognition

中文的報道:【重磅】自適應無監督學習的特徵提取方法

Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

中文的報道:港中文AAAI錄用論文詳解:ST-GCN 時空圖卷積網路模型 | AAAI 2018

code: github.com/yysijie/st-g

親測,非常好用

T-C3D: Temporal Convolutional 3D Network for Real-time Action Recognition

code:tc3d/tc3d

Unsupervised Deep Learning of Mid-Level Video Representation for Action Recognition

Unsupervised Representation Learning with Long-Term Dynamics for Skeleton Based Action Recognition

Deformable Pose Traversal Convolution for 3D Action and Gesture Recognition

Junwu Weng, Mengyuan Liu, Xudong Jiang, and Junsong Yuan

School of EEE, Nanyang Technological University

Department of CSE, The State University of New York, Buffalo [email protected]

這又是一個NTU 的作品。在NTU的庫上做的東西。

本文的貢獻是3D姿勢的表徵。他們提出了一種可變形姿勢遍歷卷積網路 Deformable Pose Traversal Convolution,它採用一維卷積來遍歷3D姿勢以表示其姿態,而不是直接通過其關節位置來表示3D姿勢。 在執行遍歷卷積時感受野也不是固定的,而是通過考慮具有不同權重的上下文關節來優化每個關節的卷積核。 這種可變形卷積更好地利用上下文關節進行動作和手勢識別,並且對於嘈雜的關節更加魯棒。 此外,通過將學習的姿勢特徵饋送到LSTM,我們執行端對端訓練,其共同優化姿勢表徵和時間序列識別。

測試了三個基準數據集的實驗驗證了我們提出的方法的競爭性能,以及它處理姿態雜訊關節的效率和魯棒性。

這篇工作是基於NTU之前的一個基本的LSTM的工作:

Liu, J., Shahroudy, A., Xu, D., Wang, G.: Spatio-temporal lstm with trust gates for 3d human action recognition. In: ECCV, Springer (2016) 816–833

code(lua):github.com/kinect59/Spa

來做的。

他們也是用了一個樹遍歷的方法來表示相關節點的空間臨近關係。然後用一個一維的卷積去卷。

基本思想就是卷積不是固定的,而是可以 deformable 的。

卷積的形變是通過一個offset的向量來學習的。

貢獻可歸納如下:

?引入了一維卷積神經網路,Deformable Pose Traversal Convolution,來表示3D姿勢。 它可以通過識別關節的關鍵組合來提取姿勢特徵。?應用ConvLSTM 來學習卷積的變形偏移。 它模擬關節關鍵組合的時間動態。

convLSTM在此:

Xingjian, S., Chen, Z., Wang, H., Yeung, D.Y., Wong, W.K., Woo, W.c.: Convolutional lstm network: A machine learning approach for precipitation nowcasting. In: NIPS. (2015) 802–810

code(Theano):home.cse.ust.hk/~xshiab

Dynamic Hand Gesture 14/28 dataset (DHG)

the NTU-RGB+D dataset (NTU)

the Berkeley Multi-modal Human Action dataset (MHAD)

Deep Bilinear Learning for RGB-D Action Recognition

Jian-Fang Hu, Wei-Shi Zheng, Jiahui Pan, Jianhuang Lai, and Jianguo Zhang

Sun Yat-sen University, China

University of Dundee, United Kingdom

Key Laboratory of Machine Intelligence and Advanced Computing, MOE 4 Inception Institute of Artificial Intelligence, United Arab Emirates

中山大學 Jian-Fang Hu 的工作。

簡述

這篇文章提出了一個RGB-D動作識別的多模態和時序信息交互的學習方法。 為了共同學習時變信息和多模態特徵,他們提出了一種新穎的深層雙線性學習框架。

在該框架中,我們提出了由兩個線性池化層 two linear pooling layers組成的雙線性模塊 bilinear blocks,用於分別從模態和時間方向池化輸入的特徵。

為了捕獲豐富的模態 - 時間信息並促進深層雙線性學習,他們給網路的特徵進行了創新,提出了一種稱為模態 - 時間立方體的新動作特徵,用於從全面的角度表徵RGB-D動作。

具體

骨骼的特徵

把 一個動作分成D 個segment, 每個segment的開始d個小segment組成一組Action history sequence 共有D個AHS

再用RNN 來提skeleton特徵,用了這個工作,也是這個人的

Hu, J.F., Zheng, W.S., Lai, J., Zhang, J.: Jointly learning heterogeneous features for rgb-d activity recognition. IEEE transactions on pattern analysis and machine intelligence

的描述子

code: isee.sysu.edu.cn/~hujia

RGB 的特徵

GIST frames , 用基於骨骼節點附近的RGB patch來平鋪成一個新的長段軌跡,所以這篇工作也屬於基於軌跡的動作識別家族的文章。

基於軌跡的動作識別的匯總:Wang, H., Klaser, A., Schmid, C., Liu, C.L.: Dense trajectories and motion boundary descriptors for action recognition. International Journal of Computer Vision

再針對這個訓練了兩個,K-channel 的CNN descriptors,K 是depth 貌似是16.

為了訓練K channel 的CNN, 選了K 個frame的 GIST ,

選擇的方法是 max(1, 1 + (u ? 1)ls/ K + δ),就是在後面加了一個隨機擾動。

用了兩組depth, K = 1 是為了學習靜態的外觀,K = 16 學習動態的外觀。

最後得到的特徵

包含五個具有時序信息的特徵cube,其中兩個來自RGB AHS(1通道CNN和16通道CNN),兩個來自深度AHS((1通道CNN和16通道CNN),以及一個來自骨架AHS(RNN),其中每一個都表徵了特定模態下不同AHS長度的動作。它們的組合可以形成一個綜合的動作表示。

然後,到此為止,特徵已經做完,重點來了。

先開始我還沒看懂他說的第三維就是類別什麼意思,後來發現,他融合的不是特徵,而是上一層神經網路給出的probability。

所以第三維是類別的數量。

深度雙線性學習

由於不同模塊直接融合不好,如上圖所示,他們提出了新的融合方法。

在數學中,雙線性映射是組合兩個向量空間的元素以產生第三向量空間的元素的函數。

深雙線性結構。給定一組M×T×C大小的模態 - 時間立方體,我們的目標是學習底層映射f,其將所有立方體元素合併為魯棒的表徵。換句話說,目標是找到一個映射,將輸入多維數據集的模態維度和時間維度匯總到一維。在本文中,我們將映射f定義為雙線性塊,Relu和softmax運算符的堆棧,即f =g1?g2?... gn ...(?),其中gn表示到上述操作之一或雙線性區塊。

深層雙線性架構的形式是靈活的。本文中的實驗涉及具有三個雙線性塊,三個Relu層和softmax層的深層架構,而更多層也是可以的。在該體系結構中,每個雙線性塊後面都有一個Relu層,以非線性方式映射塊的輸出。圖5中可以找到所採用的深層體系結構的圖示。

結果

NTU

SYSU 3D HOI set 他們自己的庫

AHS的作用

跟其他的融合方法相比

Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning

Chenyang Si, Ya Jing, Wei Wang, Liang Wang, and Tieniu Tan

Center for Research on Intelligent Perception and Computing (CRIPAC), National Laboratory of Pattern Recognition (NLPR)

Center for Excellence in Brain Science and Intelligence Technology (CEBSIT), Institute of Automation, Chinese Academy of Sciences (CASIA)

University of Chinese Academy of Sciences (UCAS)

中科院的工作。

簡述

大多數之前骨架序列的表徵缺少空間結構信息和詳細的時間動態特徵。

這篇文章提出了一種基於空間推理和時間棧學習 a novel model with spatial reasoning and temporal stack learning(SR-TSL)的基於骨架的動作識別的新模型,它由空間推理網路(SRN)和時間棧學習網路(TSLN)組成。

SRN可以通過殘差圖神經網路捕獲每個幀內的高級空間結構信息,而TSLN可以通過多個跳過剪輯LSTM的組合來模擬骨架序列的詳細時間動態。

在訓練中,提出新的clip-based incremental loss。

在SYSU 3D數據集和NTU RGB + D數據集驗證了。

拋出的兩個問題

首先,人類行為是協調完成的。例如,走路需要腿走路,也需要擺動手臂以協調身體平衡。如果直接將所有身體關節喂到神經網路,抓住高級特徵是很難的是。

其次,這些方法利用RNN直接模擬骨架序列的整體時間動態。最終RNN的隱藏表示用於識別動作。對於長期序列,最後隱藏的表示不能完全包含序列的詳細時間動態。

方法的描述

一,提出了一個空間推理網路來捕捉每個幀內的高級空間結構特徵。身體可以分解成不同的部分,例如兩條胳膊,兩條腿和一條樹榦。每個部分的連接的連接被轉換成具有線性層的單獨空間特徵。身體部位的這些個體空間特徵被饋送到殘差圖神經網路(RGNN)以捕獲不同身體部位之間的高級結構特徵,其中每個節點對應於身體部位。

二,在時序上,提出了一個temporal stack learning network(TSLN)去建模序列的detailed temporal dynamics。

其由三個skip clip 的LSTM組成

經過空間推理網路後,可以得到了一個特徵序列。在時序空間上,這裡的時序堆疊學習網路,首先是將長時序列劃分成多個連續的短時clip,每個clip通過LSTM進行時序建模,不同clip之間的LSTM是參數共享的。每個短時序clip的最後一個隱含層的狀態最為這個clip的表示,然後將該clip以及之前的所有clip的表示進行累加,列所包含的所有詳細的動態特徵。為了更好地保持表示從開始到該clip的為止的長時序序clip之間的時序關係 ,我們將這個詳細的動態特徵去初始化下一個clip的LSTM。

三,為了進一步學習詳細的時序特徵,又提出了一個Clip-based Incremental Loss去優化網路。

結果

NTU

SYSU 3D HOI set

不同step的影響

Motion Feature Network: Fixed Motion Filter for Action Recognition

Myunggi Lee, Seungeui Lee, Sungjoon Son , Gyutae Park, and Nojun Kwak

Seoul National University, Seoul, South Korea

V.DO Inc., Suwon, Korea

首爾大學韓國兄弟的工作。

簡述

之前將光流作為時間信息與包含空間信息的一組RGB圖像組合使用的方法已經在動作識別任務中顯示出極大的性能增強(個人覺得說的是雙流呀, optical flow guided呀 )。 然而,它具有昂貴的計算成本並且需要雙流(RGB和光流)框架。 本文提出了包含運動塊的MFNet(運動特徵網路(Motion Feature Network) ),該運動塊使得可以在可以端到端訓練的統一網路中的相鄰幀之間編碼時空信息。 運動塊可以附加到任何現有的基於CNN的動作識別框架,只需要很少的額外成本。

在兩個動作識別數據集(Jester和Something-Something)上評估了。

拋出的問題

CNN好是好,但是沒有時序信息。用光流又太耗時間了。

其次,很多數據集都是在對對象做分類,而不是action本身(僅僅通過一幀的場景,對象就能識別)。

所以他們的點子就做了一個專門識別motion feature的network MFN,再用這個block來做RGB 的處理。

方法的描述

MFNet的結構如圖所示。他們的工作是基於wang liming的時間片段網路(TSN),該體系結構用於從整個視頻中採樣的K個片段序列。

code:github.com/yjxiong/temp

他們的網路由兩個主要組成部分組成。

一個是對空間信息進行編碼的外觀塊。這可以是圖像分類任務中使用的任何體系結構。在我們的實驗中,他們用的ResNet [10]作為外觀塊的骨幹網路。

另一個組件是運動塊,它對時間信息進行編碼。為了對運動表示進行建模,它將來自相同層次3的相應連續幀的兩個連續特徵映射作為輸入,然後使用一組固定運動濾波器來提取時間信息。應將每個層次結構中提取的空間和時間特徵適當地傳播到下一個層次結構。

為了捕獲運動表示,動作識別中常用的方法之一是使用光流作為CNN的輸入。 儘管在動作識別任務中它具有重要作用,但光學流程在實踐中計算成本很高。 為了取代光流的作用並提取時間特徵,我們提出了與光流密切相關的運動濾波器。

這個就是濾波模塊。

濾波的模塊和RGB的特徵有兩種融合方法,一是相加,二是concat。

最後的結果,他在兩個別的庫上跑的結果。

K是分割的個數。

Dividing and Aggregating Network for Multi-view Action Recognition

Dongang Wang1, Wanli Ouyang1,2 , Wen Li3, and Dong Xu1

1 The University of Sydney, School of Electrical and Information Engineering

2 The University of Sydney, SenseTime Computer Vision Research Group

3 ETH Zurich, Computer Vision Laboratory

歐陽萬裏組的工作。

簡述

本文提出了一種新的劃分和聚合用於多視圖動作識別的網路(DA-Net)。在DA-Net中,學習了較低層的所有視角共享的表示,而在較高層學習了每個視角的特定表示。然後,基於每個視角的視角特定表示和基於較低層的共享表示的視角分類器來訓練特定於視角的動作分類器。視圖分類器用於預測每個視頻屬於每個視角的可能性。最後,當融合視角特定動作分類器的預測分數時,來自多個視角的預測視角概率被用作權重。還提出了一種基於條件隨機場(CRF)公式的新方法,以在來自不同分支的視角特定表示之間傳遞消息以相互幫助。

方法的描述

最後的結果,他在NTU庫上跑的結果。

Modality Distillation with Multiple Stream Networks for Action Recognition

Nuno C. Garcia, Pietro Morerio, and Vittorio Murino

Istituto Italiano di Tecnologia

Universita』 degli Studi di Genova

Universita『 di Verona

簡述

如何在訓練階段學習利用多模態數據的穩健表示的挑戰,同時考慮在測試時的限制,例如雜訊或丟失模態。本文提出了一種新的多模態視頻動作識別方法,該方法是在蒸餾和特權信息的統一框架內開發的,稱為廣義蒸餾。特別是,雖然在訓練的時候考慮從深度和RGB視頻學習,但能僅在測試時依賴RGB數據。我們提出了一種新的方法來訓練幻化網路,該網路通過時空表示的乘法連接,利用軟標籤和硬標籤以及特徵圖之間的距離來學習提取深度特徵。

方法的描述

這種學習範例,即使用額外信息訓練模型時,通常被稱為學習特權信息[30]或學附帶信息[11]。

[30] Vapnik, V., Vashist, A.: A new learning paradigm: Learning using privileged information. Neural networks 22(5), 544–557 (2009)

[11] Hoffman, J., Gupta, S., Darrell, T.: Learning with side information through modality hallucination. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 826–834 (2016)

在這種情況下,我們引入了一種新的學習範式,如圖1所示,將深度傳遞的信息提取到幻化網路中,這意味著在測試時「模仿」缺失的流。蒸餾[10] [1]是指任何培訓程序,其中知識從先前訓練的複雜模型轉移到更簡單的模型。我們的學習過程引入了一種新的損失函數,它受到廣義精餾框架的啟發[15],它正式統一了蒸餾和特權信息學習理論。

我們的模型受到了Simonyan和Zisserman [25]引入的雙流網路的啟發,該網路在視頻動作識別任務的傳統設置中取得了顯著的成功[2] [5]。與以前的工作不同,我們使用多模態數據,為每種模態部署一個流(在我們的例子中為RGB和深度),並在特權信息的框架中使用它。另一個鼓舞人心的工作是[11],它提出了一個幻化網路來學習輔助信息。我們建立在這個想法的基礎上,通過設計一個新的概念來擴展它通過更一般的損失函數和流間連接來學習和使用這種幻覺流的機制。

總之,本文的主要貢獻如下:

- 提出了一種能夠利用的新的多模式流網路架構訓練時採用多種數據模式,同時在測試時僅使用一種模式;

- 引入了一種新的範例來學習一個幻化網路新穎的雙流模型;

- 在這種情況下,實現了一種流間連接機制改善幻化網路的學習過程,並設計了一個更廣泛的損失函數,基於廣義蒸餾框架;

最後的結果,他在NUT庫上跑的結果。

持續更新中。。。


總結:

幾個大家都在做而且對性能很有幫助的點:

  1. RGB 和skeleton,depth 的有效融合。比如hu jianfang的雙線性融合,Verona大學的幻化網路來處理Depth模塊。
  2. skeleton的更好的表徵的探索。比如NTU liu jun的形變卷積去做,或者中科院的 spatial reasoning network去做。
  3. 時序信息和RGB的有效結合。Hu jianfang的時空feature,韓國首爾大學的motion filter替代光流。
  4. 多階時序信息的使用。Action history sequence, skip -clips, 等等,都是在做這個東西。

我在接下來的工作中,也是準備用HMM和多階時序信息結合來更好地表徵action的動作。


推薦閱讀:
相關文章