本文详细解析三维语义分割的几个主流方案,文末给出了对比
作者任浩帆,杭州电子科技大学智能信息处理实验室大三学生。长江后浪推前浪啊文中含大量链接,因公众号限制无法显示,可在文末点阅读原文查看
本文提纲:
0. 三维表示的数据结构0.1. Point cloud0.2 3D voxel grids0.3 collections of images/muti-view0.4 polygon1. PointNet1.1 提升准确度的关键步骤1.1.1. 解决无序性1.1.2. 解决几何旋转问题1.2 网路结构1.3 结果2. PointNet++2.1 网路结构2.2 自适应的特征提取层2.2.1 MSG(Multi-scale grouping)2.2.2 MRG(Multi-resolution grouping 2.3 特征传播2.4 结果3. PointSIFT4. SPG4.1 geometric partition
4.2 构建SPG 4.3 得到上下文特征
4.4 上下文分割
5. 3P-RNN 5.1 Pointwise pyramid pooling
5.2 RNN for context ensemble
6. pointwize 7. 效果比较 8. 总结
语义分割需要两部分
- classification: 需要全局信息
- segmentation:更加依赖全局信息和局部信息
- 一般的网路结构是:
提特征-特征映射-特征图压缩(降维)-全连接-分类
,其实就是encoder-decoder的过程
,比如在二维的的pspnet
,fcn
等等, 可能还有CRF
去调整
0. 三维表示的数据结构