2D圖像是否已進入瓶頸。
當然是跨視角語義分割(Cross-view Semantic Segmentation)。
語義分割(Semantic Segmentation)說到底還是為了讓人工智體更好的去理解場景(Scene Understanding)。什麼是理解場景?當我們在說讓一個智體去理解場景的時候,我們究竟在討論什麼?這其中包含很多,場景中物體的語義,屬性,場景與物體之間的相對關係,場景中人與物體的交互關係,等等。說實話很難用一句話來概括,很多研究工作往往也都是在有限的任務範圍下給出了機器人理解其所視場景的定義。那麼為什麼語義分割對於場景理解來說這麼重要?因為不管怎麼說,場景理解中有些要素是繞不開的,例如目標物體的語義, 目標物體的坐標。當我們真正要應用場景理解的技術到實際生活中時,這兩個點幾乎是必需的。而語義分割恰好能夠同時提供這兩種重要的信息。
傳統的2D圖像語義分割技術經過眾多研究人員幾年時間不停的迭代,已經發展到了一個提升相當困難的時期。同時這也意味著這項技術已經漸漸的趨於成熟。但傳統的2D分割還是有一定的局限性,比如我們很難從2D圖像中直接獲知物體的空間位置,以及其在整體空間中的布局。這很直觀,因為2D圖像捅破天也只有2D信息,想知道整體空間的位置信息還是需要更多的3D信息。事實上,這件事已經有相當一部分人在做了。為了讓單純的2D圖像(RGB)具有深度信息從而轉變成RGB-D,我們發展了深度估計(Depth Estimation);為了讓RGB-D變成真正有用的3D信息,我們發展了三維重建(3D Reconstruction)技術;為了得到整個場景的三維點雲,我們發展了SLAM;為了得到場景中點雲的語義信息,我們又發展了基於點雲的語義分割技術。這一整套流程下來,我們可以讓機器人從單純的2D圖像出發,得到空間中物體三維的坐標,語義,和邊界信息。這一連串的思路十分完備,也非常本質。然而3D數據往往又面臨著極為昂貴的計算成本與數據採集和標註的成本,不像2D數據有一台手機就能採集,對於標註人員來說也不如2D圖像的標註來的那麼直觀。
那麼我們能不能依舊基於2D圖像,讓機器人對於整個空間中物體的坐標有更好的感知?
答案是肯定的。其實在相當一部分實際任務中,得到物體準確的3D坐標是一件精確過頭的事,就好比能用16位浮點數解決的任務我偏偏要用32位,可以但不是必要。很多時候我們需要3D坐標只是因為這是一個清晰的,看得見摸得著的,具體的數值目標。但再好的數值目標,跟實際使用體驗的關聯性也不是百分百對應的。就好像損失函數低不一定代表最後的準確率就高,數值準確率高不一定代表實際的人眼效果就好。扯遠了,話說回來,基於以上我所說的,我們在求解準確的3D信息所需要的代價與傳統的2D分割的局限之間找到了一個平衡點,也就是利用俯視語義圖(Top-down-view Semantic Map)來感知周圍環境物體的方位與布局。