最近三年开源「语义SLAM/分割/建模」方案介绍

作者：丽丽在慕，来自计算机视觉life知识星球「从零开始学习SLAM」

背景介绍：20193D-SIS: 3D Semantic Instance Segmentation of RGB-D ScansScan2CAD: Learning CAD Model Alignment in RGB-D ScansScan2Mesh: From Unstructured Range Scans to 3D Meshes2018Pix3D: Dataset and Methods for Single-Image 3D Shape ModelingVisual-Inertial Object Detection and MappingSemantic Mapping with Simultaneous Object Detection and Localization3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene SegmentationScanComplete: Large-Scale Scene Completion and Semantic Segmentation for 3D Scans20173DLite: Towards Commodity 3D Scanning for Content CreationShape Completion using 3D-Encoder-Predictor CNNs and Shape SynthesisMarrNet: 3D Shape Reconstruction via 2.5D Sketches推荐阅读

背景介绍：

到目前为止，SLAM的方案都处于特征点或者像素的层级关于这些特征点或像素到底来自于什么东西，我们一无所知。这使得计算机视觉中的SLAM与我们人类的做法不怎么相似，至少我们自己从来看不到特征点，也不会去根据特征点判断自身的运动方向。我们看到的是一个个物体，通过左右眼判断它们的远近，然后基于它们在图像当中的运动推测相机的移动。很久之前，研究者就试图将物体信息结合到SLAM中。另一方面，把标签信息引入到BA或优化端的目标函数和约束中，我们可以结合特征点的位置与标签信息进行优化。这些工作都可以称为语义SLAM。

语义和SLAM看似是两个独立的模块，实则不然。在很多应用中，二者相辅相成。一方面，语义信息可以帮助SLAM提高建图和定位的精度，特别是对于复杂的动态场景。传统SLAM的建图和定位多是基于像素级别的几何匹配。借助语义信息，我们可以将数据关联从传统的像素级别升级到物体级别，提升复杂场景下的精度。另一方面，借助SLAM技术计算出物体之间的位置约束，可以对同一物体在不同角度，不同时刻的识别结果进行一致性约束，从而提高语义理解的精度。综合来说，SLAM和语义的结合点主要有两个方面： 1、语义帮助SLAM。传统的物体识别、分割演算法往往只考虑一幅图，而在SLAM中我们拥有一台移动的相机。如果我们把运动过程中的图片都带上物体标签，就能得到一个带有标签的地图。另外，物体信息亦可为回环检测、BA优化带来更多的条件。 2、SLAM帮助语义。物体识别和分割都需要大量的训练数据。要让分类器识别各个角度的物体，需要从不同视角采集该物体的数据，然后进行人工标定，非常辛苦。而SLAM中，由于我们可以估计相机的运动，可以自动地计算物体在图像中的位置，节省人工标定的成本。如果有自动生成的带高质量标注的样本数据，能够很大程度上加速分类器的训练过程。

2019

3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans

3D-SIS：RGB-D扫描的3D语义实例分割

摘要：

本文介绍了3D-SIS，一种商用RGB-D扫描中的3D语义实例分割的新型神经网路架构，其核心思想是共同学习几何和颜色信号，从而实现准确的实例预测。作者观察到大多数计算机视觉应用都具有可用的多视图RGB-D输入，而不是仅仅在2D帧上操作，利用这些输入来构建用于3D实例分割的方法，可以有效地将这些多模态输入融合在一起。网路通过基于3D重建的姿势对齐，将2D图像与体积网格相关联，来利用高解析度RGB输入。对于每个图像，首先通过一系列2D卷积为每个像素提取2D特征;然后，我们将得到的特征向量反投影到3D网格中的关联体素。2D和3D特征学习的这种组合比最先进的替代方案具有更高精度的对象检测和实例分割。根据在合成和真实公共基准测试中显示的结果，我们实现了对实际数据的mAP超过13的改进。