2D圖像是否已進入瓶頸。


當然是跨視角語義分割(Cross-view Semantic Segmentation)。

語義分割(Semantic Segmentation)說到底還是為了讓人工智體更好的去理解場景(Scene Understanding)。什麼是理解場景?當我們在說讓一個智體去理解場景的時候,我們究竟在討論什麼?這其中包含很多,場景中物體的語義,屬性,場景與物體之間的相對關係,場景中人與物體的交互關係,等等。說實話很難用一句話來概括,很多研究工作往往也都是在有限的任務範圍下給出了機器人理解其所視場景的定義。那麼為什麼語義分割對於場景理解來說這麼重要?因為不管怎麼說,場景理解中有些要素是繞不開的,例如目標物體的語義, 目標物體的坐標。當我們真正要應用場景理解的技術到實際生活中時,這兩個點幾乎是必需的。而語義分割恰好能夠同時提供這兩種重要的信息。

傳統的2D圖像語義分割技術經過眾多研究人員幾年時間不停的迭代,已經發展到了一個提升相當困難的時期。同時這也意味著這項技術已經漸漸的趨於成熟。但傳統的2D分割還是有一定的局限性,比如我們很難從2D圖像中直接獲知物體的空間位置,以及其在整體空間中的布局。這很直觀,因為2D圖像捅破天也只有2D信息,想知道整體空間的位置信息還是需要更多的3D信息。事實上,這件事已經有相當一部分人在做了。為了讓單純的2D圖像(RGB)具有深度信息從而轉變成RGB-D,我們發展了深度估計(Depth Estimation);為了讓RGB-D變成真正有用的3D信息,我們發展了三維重建(3D Reconstruction)技術;為了得到整個場景的三維點雲,我們發展了SLAM;為了得到場景中點雲的語義信息,我們又發展了基於點雲的語義分割技術。這一整套流程下來,我們可以讓機器人從單純的2D圖像出發,得到空間中物體三維的坐標,語義,和邊界信息。這一連串的思路十分完備,也非常本質。然而3D數據往往又面臨著極為昂貴的計算成本與數據採集和標註的成本,不像2D數據有一台手機就能採集,對於標註人員來說也不如2D圖像的標註來的那麼直觀。

那麼我們能不能依舊基於2D圖像,讓機器人對於整個空間中物體的坐標有更好的感知?

答案是肯定的。其實在相當一部分實際任務中,得到物體準確的3D坐標是一件精確過頭的事,就好比能用16位浮點數解決的任務我偏偏要用32位,可以但不是必要。很多時候我們需要3D坐標只是因為這是一個清晰的,看得見摸得著的,具體的數值目標。但再好的數值目標,跟實際使用體驗的關聯性也不是百分百對應的。就好像損失函數低不一定代表最後的準確率就高,數值準確率高不一定代表實際的人眼效果就好。扯遠了,話說回來,基於以上我所說的,我們在求解準確的3D信息所需要的代價與傳統的2D分割的局限之間找到了一個平衡點,也就是利用俯視語義圖(Top-down-view Semantic Map)來感知周圍環境物體的方位與布局

俯視語義圖(Top-down-view Semantic Map)

我們把從第一視角的2D圖像(First-view Observation)得到俯視語義圖(Top-down-view Semantic Map)的過程稱作跨視角語義分割(Cross-view Semantic Segmentation)。跨視角語義分割與傳統2D語義分割的區別在於我們得到的不再是一張與原圖逐像素對應的語義圖,而是一張俯視視角下看到的周圍環境的語義圖。另外對於模型的輸入來說,跨視角語義分割的輸入從2D語義分割的一張RGB圖變成了多張第一視角的任意模態的圖(RGB,Semantic Mask,Depth)。

由於這是一個新問題,現有的語義分割數據集並不支持我們去訓練這樣一個跨視角語義分割的模型。我們於是將目光投向了一些模擬模擬環境(Simulated Environment),例如House3D,Gibson Environment,Matterport3D。我們從這些模擬模擬環境中提取第一視角的圖像以及對應的俯視語義圖,從而完成訓練過程。然而模擬環境中提取的圖像與真實世界的圖像還是有著很大的差別,因此我們在部署我們的模型到真實世界的時候還做了一步半監督的域適應(Domain Adaptation)。我們利用這樣一個模擬環境+半監督域適應的流程暫時緩解了沒有真實數據的問題。但是在未來如果我們需要對這個方向進行長足的發展,真實世界的數據仍然是不可或缺的。

從模型結構的角度來看,我們的實驗發現,由於不存在像素級的對應關係,傳統2D語義分割的模型結構並不能直接套用在我們跨視角語義分割的任務上。然而為了能夠繼承這些極為優秀的,凝結了許多前人智慧的傳統2D語義分割的模型結構,我們提出了一種視角轉換模塊(View Transformer Module)插入到編碼器(Encoder)和解碼器(Decoder)之間。這種視角轉換模塊保持了原來的模型結構,從而在跨視角語義分割任務上更好的發揮作用。

整體框架圖

我們這項工作《Cross-view Semantic Segmentation for Sensing Surroundings》在今年上半年的時候被期刊RA-L收錄,同時這幾天也在IROS2020大會上展示。文章展示了更多的方法與實驗上的細節。我們針對這個問題做了很多實驗,對比了一些其他方法比如傳統3D投影,基於圖像生成模型的方法,探究了視角轉換器真正的作用,展示了很多真實世界中的跨視角分割效果圖,還設計了兩個室內導航的小實驗,其中一個在真實的機器人上也做了實驗。感興趣的同學可以戳我們的項目主頁。不想點開的同學可以直接看我們做的一個小demo:

Demo of Cross-view Semantic Segmentation潘柏文的視頻 · 1206 播放

這幾天IROS2020也在開,但是因為疫情的關係大會改成了線上舉辦的模式,文章全被做成視頻放在了iros2020.org/ondemand上供大家自由探索,沒有與作者的互動,因此希望能借這篇文章以這種形式向大家介紹一下我們的工作。有任何想法都可以隨時通過郵件找我交流,期待能激發大家的一些想法,一起推動這個領域的發展。

PS:

這項工作是我與周老師( @周博磊 )深度合作的第一個項目,項目的主體部分其實在2018年的時候就已經完成的差不多了。那時我還在讀本科,剛到MIT實習,周老師剛從MIT博士畢業,到CUHK開始教職生涯。但不料想這篇文章前前後後被拒了大概三四次,修修補補了兩年,直到今年年初才發出來。現在我開啟了我的PhD生涯,周老師在香港組建了他的團隊,聲勢逐漸浩大,一晃兩年了。這是我第一篇被連拒的文章(以後或許會有更多),每次從被拒到修改再投的過程都是對於心態的一次磨鍊,也是對文章本身更加深刻的思考。非常感謝周老師的鼓勵,敦促與指導。最近伯克利,FAIR,NVIDIA等一些機構發表了幾篇與我們這項工作密切相關的文章,也讓我越來越相信我們這項工作的意義,希望能給大家帶來一點啟發。感謝!


個人拙見:

1.semantic segmentation結合其他任務,如object detection或depth/normal prediction的multi-task框架。類似這幾篇的框架:

1) Instance-aware Semantic Segmentation via Multi-task Network Cascades

2) Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

3) Cross-Domain Self-supervised Multi-task Feature Learning using Synthetic Imagery

2.利用data-fusion來優化semantic segmentation,例如:

1)FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture

2)MFNet: Towards Real-Time Semantic Segmentation for Autonomous Vehicles with Multi-Spectral Scenes

3. feature adaption,例如從GTA5到CityScapes,這樣的話就可以用大量的synthetic圖片來訓練,然後通過feature adaption來直接在真實數據上得到很好的效果。推薦我非常喜歡的一篇paper:

CyCADA: Cycle-Consistent Adversarial Domain Adaptation

4. self-supervised learning,這類一般得集合具體的應用。比如能通過一些傳統方法生成一些label然後再去學習怎麼finetune。

個人拙見,個人拙見。


實時性、小目標、邊緣、降低參數量

個人拙見


其實是因為前面深度學習這一波走的太順了,尤其CNN出來,然後gan沒過多少年就出來了,其實你看看前面大概八十年的ai歷史,大部分時候圖像處理走的都很慢,那才是常態。

現在這麼大的成果,想要再做哪怕一點點improvement都很難,現在好多可能一線研究的人,都要去從數學那一塊找新東西,比如弄一個很新的loss,或者很新的regulizer,這些有些以前可能只在理論上出現過,而且都是那種非常冷門高端的理論,比如stoc這種,然後你放到工程上來,也不一定什麼時候都很work。

反正前路還是有點難的。


zero-shot semantic segmentation, weak-shot semantic segmentation


大部分的文章都在做模型結構,對數據的研究並不多,下一步多在數據上做做文章吧。

如果誰有興趣來做達摩院的學術實習生,想要一起探索研究,可以投遞到[email protected]


無監督語義分割,這塊可以結合目前熱門的自監督學習,相關工作有iccv2019的iic,cvpr2020的segsort


1、domain-adaptation和generalization

2、few-shot

個人拙見,畢竟分割的數據獲取代價比較大,在現實世界中模型所使用的數據分布還存在shift.


推薦閱讀:
相关文章