最近三年開源「語義SLAM/分割/建模」方案介紹

作者：麗麗在慕，來自計算機視覺life知識星球「從零開始學習SLAM」

背景介紹：20193D-SIS: 3D Semantic Instance Segmentation of RGB-D ScansScan2CAD: Learning CAD Model Alignment in RGB-D ScansScan2Mesh: From Unstructured Range Scans to 3D Meshes2018Pix3D: Dataset and Methods for Single-Image 3D Shape ModelingVisual-Inertial Object Detection and MappingSemantic Mapping with Simultaneous Object Detection and Localization3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene SegmentationScanComplete: Large-Scale Scene Completion and Semantic Segmentation for 3D Scans20173DLite: Towards Commodity 3D Scanning for Content CreationShape Completion using 3D-Encoder-Predictor CNNs and Shape SynthesisMarrNet: 3D Shape Reconstruction via 2.5D Sketches推薦閱讀

背景介紹：

到目前為止，SLAM的方案都處於特徵點或者像素的層級關於這些特徵點或像素到底來自於什麼東西，我們一無所知。這使得計算機視覺中的SLAM與我們人類的做法不怎麼相似，至少我們自己從來看不到特徵點，也不會去根據特徵點判斷自身的運動方向。我們看到的是一個個物體，通過左右眼判斷它們的遠近，然後基於它們在圖像當中的運動推測相機的移動。很久之前，研究者就試圖將物體信息結合到SLAM中。另一方面，把標籤信息引入到BA或優化端的目標函數和約束中，我們可以結合特徵點的位置與標籤信息進行優化。這些工作都可以稱為語義SLAM。

語義和SLAM看似是兩個獨立的模塊，實則不然。在很多應用中，二者相輔相成。一方面，語義信息可以幫助SLAM提高建圖和定位的精度，特別是對於複雜的動態場景。傳統SLAM的建圖和定位多是基於像素級別的幾何匹配。藉助語義信息，我們可以將數據關聯從傳統的像素級別升級到物體級別，提升複雜場景下的精度。另一方面，藉助SLAM技術計算出物體之間的位置約束，可以對同一物體在不同角度，不同時刻的識別結果進行一致性約束，從而提高語義理解的精度。綜合來說，SLAM和語義的結合點主要有兩個方面： 1、語義幫助SLAM。傳統的物體識別、分割演算法往往只考慮一幅圖，而在SLAM中我們擁有一台移動的相機。如果我們把運動過程中的圖片都帶上物體標籤，就能得到一個帶有標籤的地圖。另外，物體信息亦可為迴環檢測、BA優化帶來更多的條件。 2、SLAM幫助語義。物體識別和分割都需要大量的訓練數據。要讓分類器識別各個角度的物體，需要從不同視角採集該物體的數據，然後進行人工標定，非常辛苦。而SLAM中，由於我們可以估計相機的運動，可以自動地計算物體在圖像中的位置，節省人工標定的成本。如果有自動生成的帶高質量標註的樣本數據，能夠很大程度上加速分類器的訓練過程。

2019

3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans

3D-SIS：RGB-D掃描的3D語義實例分割

摘要：

本文介紹了3D-SIS，一種商用RGB-D掃描中的3D語義實例分割的新型神經網路架構，其核心思想是共同學習幾何和顏色信號，從而實現準確的實例預測。作者觀察到大多數計算機視覺應用都具有可用的多視圖RGB-D輸入，而不是僅僅在2D幀上操作，利用這些輸入來構建用於3D實例分割的方法，可以有效地將這些多模態輸入融合在一起。網路通過基於3D重建的姿勢對齊，將2D圖像與體積網格相關聯，來利用高解析度RGB輸入。對於每個圖像，首先通過一系列2D卷積為每個像素提取2D特徵;然後，我們將得到的特徵向量反投影到3D網格中的關聯體素。2D和3D特徵學習的這種組合比最先進的替代方案具有更高精度的對象檢測和實例分割。根據在合成和真實公共基準測試中顯示的結果，我們實現了對實際數據的mAP超過13的改進。