作者:麗麗在慕,來自計算機視覺life知識星球「從零開始學習SLAM」

背景介紹:20193D-SIS: 3D Semantic Instance Segmentation of RGB-D ScansScan2CAD: Learning CAD Model Alignment in RGB-D ScansScan2Mesh: From Unstructured Range Scans to 3D Meshes2018Pix3D: Dataset and Methods for Single-Image 3D Shape ModelingVisual-Inertial Object Detection and MappingSemantic Mapping with Simultaneous Object Detection and Localization3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene SegmentationScanComplete: Large-Scale Scene Completion and Semantic Segmentation for 3D Scans20173DLite: Towards Commodity 3D Scanning for Content CreationShape Completion using 3D-Encoder-Predictor CNNs and Shape SynthesisMarrNet: 3D Shape Reconstruction via 2.5D Sketches推薦閱讀

背景介紹:

到目前為止,SLAM的方案都處於特徵點或者像素的層級關於這些特徵點或像素到底來自於什麼東西,我們一無所知。這使得計算機視覺中的SLAM與我們人類的做法不怎麼相似, 至少我們自己從來看不到特徵點,也不會去根據特徵點判斷自身的運動方向。 我們看到的是一個個物體,通過左右眼判斷它們的遠近,然後基於它們在圖像當中的運動推測相機的移動。很久之前,研究者就試圖將物體信息結合到SLAM中。另一方面,把標籤信息引入到BA或優化端的目標函數和約束中,我們可以結合特徵點的位置與標籤信息進行優化。這些工作都可以稱為語義SLAM。

語義和SLAM看似是兩個獨立的模塊,實則不然。在很多應用中,二者相輔相成。一方面,語義信息可以幫助SLAM提高建圖和定位的精度,特別是對於複雜的動態場景。傳統SLAM的建圖和定位多是基於像素級別的幾何匹配。 藉助語義信息,我們可以將數據關聯從傳統的像素級別升級到物體級別,提升複雜場景下的精度。另一方面,藉助SLAM技術計算出物體之間的位置約束,可以對同一物體在不同角度, 不同時刻的識別結果進行一致性約束,從而提高語義理解的精度。綜合來說,SLAM和語義的結合點主要有兩個方面: 1、 語義幫助SLAM。傳統的物體識別、分割演算法往往只考慮一幅圖,而在SLAM中我們擁有一台移動的相機。如果我們把運動過程中的圖片都帶上物體標籤,就能得到一個帶有標籤的地圖。另外,物體信息亦可為迴環檢測、BA優化帶來更多的條件。 2、SLAM幫助語義。 物體識別和分割都需要大量的訓練數據。要讓分類器識別各個角度的物體,需要從不同視角採集該物體的數據,然後進行人工標定,非常辛苦。 而SLAM中,由於我們可以估計相機的運動,可以自動地計算物體在圖像中的位置,節省人工標定的成本。如果有自動生成的帶高質量標註的樣本數據,能夠很大程度上加速分類器的訓練過程。

2019

3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans

3D-SIS:RGB-D掃描的3D語義實例分割

摘要

本文介紹了3D-SIS,一種商用RGB-D掃描中的3D語義實例分割的新型神經網路架構,其核心思想是共同學習幾何和顏色信號,從而實現準確的實例預測。作者觀察到大多數計算機視覺應用都具有可用的多視圖RGB-D輸入,而不是僅僅在2D幀上操作,利用這些輸入來構建用於3D實例分割的方法,可以有效地將這些多模態輸入融合在一起。網路通過基於3D重建的姿勢對齊,將2D圖像與體積網格相關聯,來利用高解析度RGB輸入。對於每個圖像,首先通過一系列2D卷積為每個像素提取2D特徵;然後,我們將得到的特徵向量反投影到3D網格中的關聯體素。2D和3D特徵學習的這種組合比最先進的替代方案具有更高精度的對象檢測和實例分割。根據在合成和真實公共基準測試中顯示的結果,我們實現了對實際數據的mAP超過13的改進。

論文地址:arxiv.org/pdf/1812.0700

視頻:youtube.com/watch?

項目網址:graphics.stanford.edu/~

Scan2CAD: Learning CAD Model Alignment in RGB-D Scans

摘要:

本文提出了Scan2CAD1,這是一種新穎的數據驅動方法,它學習如何將形狀資料庫中的純3D CAD模型與RGBD掃描的雜訊和不完整幾何形狀對齊。對於室內場景的3D重建,我們的方法將一組CAD模型作為輸入,並預測將每個模型與基礎掃描幾何對齊的9DoF姿勢。為了解決這個問題,我們基於1506 ScanNet掃描創建了一個新的scanto-CAD對齊數據集,其中包含來自ShapeNet的14225個CAD模型與掃描中的對應對象之間的97607個帶注釋的關鍵點對。我們的方法在3D掃描中選擇一組代表性關鍵點,尋找它們與CAD幾何體的對應關係。為此,我們設計了一種新穎的3D CNN架構,以學習真實物體和合成物體之間的聯合嵌入,從而預測對應的熱度圖。基於這些對應熱度圖,我們制定了變分能量最小化,使一組給定的CAD模型與重建的結果對齊。我們在新推出的Scan2CAD基準測試中評估了我們的方法,它比手工特徵描述以及最先進的CNN方法都優秀21.39%。

論文地址:

arxiv.org/pdf/1811.1118

視頻:

youtube.com/watch?

項目網址:

graphics.stanford.edu/~

Scan2Mesh: From Unstructured Range Scans to 3D Meshes

摘要:

本文提出了Scan2Mesh,這是一種新穎的數據驅動的生成方法,它將非結構化和可能不完整的範圍掃描轉換為結構化的3D網格表示。這項工作的主要貢獻:構建了一種輸入是3D對象的範圍掃描,其輸出是以輸入掃描為條件的索引面集的生成神經網路架構。為了生成3D網格作為一組頂點和面部索引,生成模型建立在頂點,邊和面的一系列代理損失之上。在每個階段,我們通過卷積和圖形神經網路架構的組合,實現預測的和真實數據點之間的一對一離散映射。這使我們的演算法能夠預測緊湊的網格表示,類似於使用3D建模軟體通過藝術家手工創建的網格表示。因此,我們生成的網格結果可生成更靈敏,更清晰的網格,其結構與通過隱式函數生成的網格具有根本不同的結構,這是縮小與藝術家創建的CAD模型的差距的第一步。

論文地址:

arxiv.org/pdf/1811.1046

項目網址:

graphics.stanford.edu/~

2018

Pix3D: Dataset and Methods for Single-Image 3D Shape Modeling

摘要:

我們從單個圖像研究3D形狀建模,並從三個方面做出貢獻。首先,我們提出了Pix3D,這是一個大規模的基準,具有像素級2D-3D對齊的各種圖像形狀對。Pix3D在有關形狀的任務中有廣泛的應用,包括重建,檢索,視點估計等。然而,建立如此大規模的數據集非常具有挑戰性;現有數據集要麼僅包含合成數據,要麼缺少2D圖像和3D形狀之間的精確對齊,或者僅具有少量圖像。其次,我們通過行為研究校準3D形狀重建的評估標準,並使用它們客觀和系統地對Pix3D上的切割重建演算法進行基準測試。第三,我們設計了一種同時進行三維重建和姿態估計的新模型;我們的多任務學習方法在這兩項任務中實現了最先進的性能。

論文地址:

pix3d.csail.mit.edu/pap

Github地址:

github.com/xingyuansun/

項目網址:

pix3d.csail.mit.edu/

Visual-Inertial Object Detection and Mapping

摘要:

我們提出了一種方法,用先前看到的物體模型填充未知環境,將其放置在歐幾里得參考幀中,利用單目視頻和慣性感測器進行因果和在線推斷。我們實現的系統為場景中可見但未被識別為先前看到的對象的區域返回稀疏點雲,否則返回詳細對象模型及其在歐幾里德幀中的姿勢。該系統包括自下而上和自上而下的組件,由此訓練用於檢測的深度網路提供由非線性濾波器提供的對象假設的似然分數,其狀態用作存儲器。附加網路提供邊緣的似然分數,這完善了檢測網路對於微小形變的不變性能。我們在現有數據集上測試我們的演算法,並且還引入VISMA數據集,其提供地面實況姿勢,點雲圖和對象模型,以及帶時間戳的慣性測量。

論文地址:

arxiv.org/pdf/1806.0849

視頻:

youtube.com/watch?

數據:

github.com/feixh/VISMA

Semantic Mapping with Simultaneous Object Detection and Localization

摘要:

本文提出了一種基於過濾的語義映射方法,可以同時檢測對象並定位它們的6DoF姿勢。這種方法稱為上下文時間映射(或CT-Map),我們將語義映射表示為對象類的信念,並在觀察到的場景中構建。然後以條件隨機場(CRF)的形式對語義映射問題的推斷進行建模。CT-Map是一種CRF,它考慮兩種形式的關係潛力來解釋對象之間的上下文關係和對象姿勢的時間一致性,以及觀察的測量潛力。然後提出粒子濾波演算法以在CT-Map模型中執行推斷。我們使用配備RGB-D感測器的Michigan Progress Fetch機器人展示了CT-Map方法的有效性。我們的結果表明,基於粒子濾波的CT-Map推斷相對於將觀察視為場景的獨立樣本的基線方法提供了改進的物體檢測和姿態估計。

論文地址:

arxiv.org/abs/1810.1152

視頻:

youtube.com/watch?

3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation

摘要:

本文提出了3DMV,一種使用聯合3D多視圖預測網路在室內環境中進行RGB-D掃描的3D語義場景分割的新方法。與使用幾何或RGB數據作為此任務的輸入的現有方法相比,我們將這兩種數據模態組合在一個聯合的端到端網路架構中。我們首先從相關的RGB圖像中提取特徵圖,而不是簡單地將顏色數據投影到體積網格中並且僅以3D操作 - 這將導致細節不足。然後使用可反射的反投影層將這些特徵映射到3D網路的體積特徵網格中。由於我們的目標是可能有很多幀的3D掃描場景,我們使用多視圖池化方法來處理不同數量的RGB輸入視圖。這種學習到的RGB和幾何特徵與我們的聯合2D-3D架構相結合,可以獲得比現有基線更好的結果。例如,與現有的體積架構相比,我們的結果在ScanNet 3D分割基準上的準確率從52.8%提升到75%.

論文地址:

arxiv.org/pdf/1803.1040

代碼:

github.com/angeladai/3D

項目網址:

graphics.stanford.edu/~

ScanComplete: Large-Scale Scene Completion and Semantic Segmentation for 3D Scans

摘要:

本文提出了ScanComplete,這是一種新穎的數據驅動方法,將場景的不完整3D掃描作為輸入,能夠預測出完整的3D模型以及每個體素的語義標籤。本文的主要貢獻是:隨著場景規模的擴大,使立方體的數據尺寸增大,因此能夠處理具有不同空間範圍的大型場景。我們設計了一個完全卷積生成的3D CNN模型,其卷積核對於整個場景尺寸是不變的。該模型可以在子場景上進行訓練,但在測試時能夠部署在任意大的場景中。另外,我們提出了一個粗略的推理策略,以產生高解析度的輸出,同時也利用了大的輸入上下文尺寸。在一系列廣泛的實驗中,我們仔細評估了不同的模型設計選擇,考慮了完成和語義推斷的確定性和概率模型。我們的結果表明,我們不僅在處理環境的大小和處理效率方面優於其他方法,而且在完成質量和語義分割性能方面有顯著的優勢。

論文地址:

arxiv.org/pdf/1712.1021視頻: youtube.com/watch?代碼: github.com/angeladai/Sc項目網址:

graphics.stanford.edu/~

2017

3DLite: Towards Commodity 3D Scanning for Content Creation

摘要:

本文提出了3DLite,這是一種使用消費者的RGB-D感測器重建3D環境的新方法,它使我們朝著直接利用圖像應用程序(如視頻遊戲、虛擬現實或AR)中捕獲的3D內容邁出了一步。我們的方法不是重建真實世界的精確的一對一表示,而是計算出一個輕量、低多邊形的掃描幾何的幾何抽象。我們認為,對於許多圖形應用來說,獲得高質量的表面紋理比獲得高細節的幾何圖形更重要。為此,我們通過扭曲和縫合來自低質量RGB輸入數據的圖像片段來補償運動模糊、自動曝光偽影和相機姿態中的微小錯位,以實現高解析度、銳利的表面紋理。除了觀察到的場景區域外,我們外推場景幾何體以及映射的表面紋理,以獲得完整的環境3D模型。我們表明,場景幾何圖形的簡單平面抽象非常適合此完成任務,使3DLite能夠生成完整、輕量級且具有視覺吸引力的三維場景模型。我們認為,這些類似CAD的重建是在實際物體創建中利用RGB-D掃描的重要步驟。

論文地址:graphics.stanford.edu/~

視頻:

youtube.com/watch?

項目網址:

graphics.stanford.edu/p

Shape Completion using 3D-Encoder-Predictor CNNs and Shape Synthesis

摘要:

本文提出了一種數據驅動方法,通過體積深度神經網路和3D形狀合成的組合來補全部分3D形狀。從部分掃描的輸入形狀,我們的方法首先推斷出解析度低、但完整的輸出。為此,我們提出了由3D卷積層組成的3D-Encoder-Predictor(3D-EPN)網路。訓練網路以預測和填充丟失的數據,並對隱含的表面表示進行操作,該表示對已知和未知空間進行編碼。這使我們能夠以高精度預測未知區域的整體結構。然後,我們在測試時將這些中間結果與形狀資料庫中的3D幾何形狀相關聯。在最後一遍中,我們提出了一種基於補丁的3D形狀合成方法,該方法將來自這些檢索到的形狀的3D幾何形狀強加為粗略完成的網格上的約束。該合成過程使我們能夠在遵循由3D-EPN獲得的全局網格結構的同時,重建比例細節並生成高解析度輸出。雖然我們的3D-EPN優於最先進的補全方法,但主要貢獻在於數據驅動的形狀預測和分析3D形狀合成的結合。在我們的結果中,我們展示了對新引入的真實和合成數據的形狀補全基準的廣泛評估。

論文地址:

arxiv.org/pdf/1612.0010

項目網址:

graphics.stanford.edu/p

MarrNet: 3D Shape Reconstruction via 2.5D Sketches

摘要:

從單個圖像重建三維對象是一個具有高度不確定性的問題,需要對可能的三維形狀有很強的先驗知識。這為基於學習的方法帶來了挑戰,因為三維對象注釋在真實圖像中是稀缺的。以前的工作選擇在具有地面實況三維信息的合成數據進行訓練,但在實際數據測試時遭受域適應問題。在這項工作中,我們提出了MarrNet,這是一種端到端的可訓練模型,可以按順序估算2.5D草圖和3D物體形狀。我們提出的方案分為兩步,它有三個優點:首先,與完整的3D形狀相比,2.5D草圖更容易從2D圖像中恢復;恢復2.5D草圖的模型也更有可能從合成數據轉移到實際數據。其次,對於2.5D草圖的3D重建,系統可以純粹從合成數據中學習。這是因為我們可以輕鬆渲染逼真的2.5D草圖,而無需在真實圖像中對物體的外觀變化,包括光照,紋理等進行建模。這進一步緩解了域適應問題。第三,我們推導出從3D形狀到2.5D草圖的可微類投影函數;因此,框架可以在真實圖像上進行端到端的訓練,不需要人類注釋。我們的模型在3D形狀重建方面實現了最先進的性能。

論文地址:

papers.nips.cc/paper/66Github地址:github.com/jiajunwu/mar

PS: 公眾號不支持外鏈跳轉,所以無法使用超鏈接,點擊下方閱讀原文,可使用超鏈接版本

推薦閱讀

從零開始一起學習SLAM | 為什麼要學SLAM?

從零開始一起學習SLAM | 學習SLAM到底需要學什麼?

從零開始一起學習SLAM | SLAM有什麼用?

從零開始一起學習SLAM | C++新特性要不要學?

從零開始一起學習SLAM | 為什麼要用齊次坐標?

從零開始一起學習SLAM | 三維空間剛體的旋轉

從零開始一起學習SLAM | 為啥需要李群與李代數?

從零開始一起學習SLAM | 相機成像模型

從零開始一起學習SLAM | 不推公式,如何真正理解對極約束?

從零開始一起學習SLAM | 神奇的單應矩陣

從零開始一起學習SLAM | 你好,點雲

從零開始一起學習SLAM | 給點雲加個濾網

從零開始一起學習SLAM | 點雲平滑法線估計

從零開始一起學習SLAM | 點雲到網格的進化

從零開始一起學習SLAM | 理解圖優化,一步步帶你看懂g2o代碼

從零開始一起學習SLAM | 掌握g2o頂點編程套路

從零開始一起學習SLAM | 掌握g2o邊的代碼套路

SLAM初識

SLAM技術框架

慣性導航系統簡介

視覺里程計:起源、優勢、對比、應用

視覺里程計:特徵點法之全面梳理

SLAM領域牛人、牛實驗室、牛研究成果梳理

我用MATLAB擼了一個2D LiDAR SLAM

可視化理解四元數,願你不再掉頭髮

IMU標定 | 工業界和學術界有什麼不同?

匯總 | VIO、激光SLAM相關論文分類集錦

最近一年語義SLAM有哪些代表性工作?

視覺SLAM技術綜述

研究SLAM,對編程的要求有多高?

深度學習遇到SLAM | 如何評價基於深度學習的DeepVO,VINet,VidLoc?

2018年SLAM、三維視覺方向求職經驗分享

超詳細乾貨 | 三維語義分割概述及總結


推薦閱讀:
相关文章