看了最近關於3D物體檢測任務的一些進展文獻,有興趣可以找我交流。

論文一:multi-tast multi-sensor fusion for 3D object detection

來源:CVPR2019

簡介

提出了一種端到端的學習框架,可以進行多個任務:2D object detection, 3D object detection,地面估計,深度補全。 通過實驗展示了這些任務都是完整的,並且通過不同level的信息融合幫助網路更好的表達。

筆者疑問:每個任務單獨拿出來都是一個獨立的任務,為什麼要放在一起做?一起做能夠互相幫助?

答:論文中的解釋:

In this paper we argue that by solving multiple perception tasks jointly, we can learn better feature representations which result in better detection performance

即,聯合多個task一起解,可以學到更好的feature representation.這樣更有利於detection.聽起來就感覺比較不靠譜?

論文就是基於筆者的這個疑問,建立了一個端到端的網路,輸入時multi-sensor,輸出時2D 和3D detection, ground estimation 和depth completion.如下圖所示:

具體來講,論文提出了一個多感測器融合結構,利用point-wise和ROI-wise 的優點,產生 fully fused feature representations. 在無人駕駛產場景下,關於location和地面的信息可以為3D object detection提供有用的線索,因為感興趣的object都在地平面上。

論文二:Stereo R-CNN based 3D Object Detection for Autonomous Driving

來源:CVPR2019

簡介:

提出了一種3D object detection方法,充分利用雙目圖像稀疏和稠密,語義和幾何信息。這個方法被命名為stereo-r-cnn,作為faster-rcnn的擴展,能夠輸入雙目數據然後同時對左右圖的目標進行檢測和關聯。並在rpn之後增加了額外的分支,用來推斷稀疏關鍵點,視點和維度(長寬高),這些信息和一個包含左右的2Dbox綁定,然後用來計算coarse 3D object bounding box. 準確的3D object bounding box是左右圖的RoI,通過region-based photometric alignment(光度重投影對齊)。這個方法不需要深度輸入,和3D 位置監督。輸出的結果比目前全監督的image-based 方法都要好。 在kitti上的測試表明,其方法在3D detection 和3D localization上,比Sate of the art要提高了30%的 平均精度

代碼:github.com/HKUST-Aerial

論文三:MOTS:Multi-Object Tracking and Segmentation

來源:CVPR2019

簡介:

這篇文章對流行的任務:multi-object tracking 進行了擴展: multi object-tracking and segmentation。就是說對多物體跟蹤增加了一個同時語義分割。為了實現這個目標,對兩個已經存在的Tracking 數據集進行稠密的pixel-level標註。具體是指在10870個視頻幀中的977個不同物體(車或者行人)的65213個pixel mask進行了標註。對於評測,本文擴展了multi-object tracking metrics,而且提供了一個baseline method ,通過單一網路同時處理deteciton ,tracking 和segmentation. 本文通過在MOTS標註上的訓練發現能夠提performance,從而論證了這個數據集的價值。面向Multi-object tracking方法(比2d bunding box更先進)的開發,相信本文提供的數據集、metrics、和baseline可以成為有價值的資源。

(未完待續,歡迎探討)


推薦閱讀:
相關文章