本文詳細解析三維語義分割的幾個主流方案,文末給出了對比
作者任浩帆,杭州電子科技大學智能信息處理實驗室大三學生。長江後浪推前浪啊文中含大量鏈接,因公眾號限制無法顯示,可在文末點閱讀原文查看
本文提綱:
0. 三維表示的數據結構0.1. Point cloud0.2 3D voxel grids0.3 collections of images/muti-view0.4 polygon1. PointNet1.1 提升準確度的關鍵步驟1.1.1. 解決無序性1.1.2. 解決幾何旋轉問題1.2 網路結構1.3 結果2. PointNet++2.1 網路結構2.2 自適應的特徵提取層2.2.1 MSG(Multi-scale grouping)2.2.2 MRG(Multi-resolution grouping 2.3 特徵傳播2.4 結果3. PointSIFT4. SPG4.1 geometric partition
4.2 構建SPG 4.3 得到上下文特徵
4.4 上下文分割
5. 3P-RNN 5.1 Pointwise pyramid pooling
5.2 RNN for context ensemble
6. pointwize 7. 效果比較 8. 總結
語義分割需要兩部分
- classification: 需要全局信息
- segmentation:更加依賴全局信息和局部信息
- 一般的網路結構是:
提特徵-特徵映射-特徵圖壓縮(降維)-全連接-分類
,其實就是encoder-decoder的過程
,比如在二維的的pspnet
,fcn
等等, 可能還有CRF
去調整
0. 三維表示的數據結構