前段時間所做的一項工作,主要貢獻在於將DenseNet和ResNet結合,構建了一個Dense Residual block 如圖1(c),並將其拓展到3D Dense Residual block 如圖2。針對視頻行為識別,提出了一個3D密集連接殘差網路如圖3所示。

圖1

圖2

圖3

在UCF101數據集上做了點實驗,數據的處理與C3D那篇論文保持一致,結果倒是出奇的好,對於長度為16幀的視頻,UCF101 split1上的clip準確率達到了58.47%,整個模型的參數才1.5M。

關於實驗的具體實施細節可到我的項目中查看

https://github.com/TianzhongSong/3D-Dense-Residual-Network-for-Action-Recognition?

github.com

目前只是個初步idea,水了篇中文的論文,求個畢業。受限於硬體和國內網路問題,也只是在UCF101數據集上做些實驗,沒法在 Kinetics 和 sports-8M 上做實驗,有條件的大佬可以拿去在大型數據集上跑跑。

.

推薦閱讀:

相关文章