SLAM的動態地圖和語義問題（寫在前面的話）

已經遠離SLAM第一線了，最近談到自動駕駛的高清地圖，又不得不重新撿起來。

大家都知道，背景建模和背景減除 (Background Modeling and Subtraction) 是視覺監控的基本技術，這個從DAPRA當年的項目VSAM開始就定型了，MIT教授Grimson提出的著名的Mixture of Gaussian背景建模法被普遍採用，當時明尼蘇達的Honeywell公司做了一個停車場監控系統就是採用這個模型。

DARPA在VSAM之後，改了項目的名字，叫HID（human identification at distance）。參加項目的還是那些學校，只是研究重點變成了face recognition和gait recognition。當年開會的時候也見過那些大牛和小牛們，比如MIT的Grimson和Darell。Grimson教授是美髯公，當年Darell還是很帥的年輕教授（就是現在加州Berkeley分校的那位，最近要離開FB的賈揚清博士的導師），現在頭髮掉了一半了吧。

其實計算機視覺領域曾經很有名的的是Darell教授的老闆，原來MIT Media Lab的牛人，Pentland教授，他手下的弟子都還在計算機視覺圈子裡，大部分是名校的教授，他早早就離開這個圈子去別的領域了，當年曾幫著美國政府搞什麼digital life之類的。什麼Smart room，smart chair，。。。，smart X 之類，都是他在Media Lab最先搞起來的。

時間久了，好多人忘了。想起來HID項目裡面還有Georgia Tech的教授Aaron Bobick和Irfan Essa。Bobick以前就是MIT Media Lab的faculty，後來跑到亞特蘭大。幾年前，他離開了Georgia Tech去了Washington St Louis。當年W St Louis有赫赫有名的Robert Haralick，據說他的關門弟子是一個中國留學生，現在RPI教授Qiang Ji。Essa是Darell的師兄弟，說起來Darell還有一個師兄弟在Boston大學當教授，Stan Sclaroff，那才是高顏值博士，現在也很帥的：），當年我找他寫綠卡推薦信。

呵呵，我找的另外一個寫綠卡推薦信的教授也是Darell的師兄弟，著名的EigenFace作者，也是微軟研究院計算機視覺組的創始人，UCSB的教授Matthew Turk。不要看Turk教授個子不高，打起籃球絕對夠職業水平。

DARPA開會見到的，還有CMU的Kanade教授，他在DARPA地位很高，可以說是說一不二，當時又剛剛當院士不久，記得他是HID項目人臉識別方向的負責人。不少人一定知道Kanade當年去北京ICCV領獎的故事吧，聽說因為他沒有註冊（他已經不怎麼出來開會了，但奇怪的是每年經費上千萬美元的教授到了會場就是不願意交那幾百塊美金），門衛不讓他進去，最後大會主席跑出來說情：）。

還有Jianbo Shi，那時候他剛從Berkeley畢業不久吧，在CMU做gait recognition。他的博士論文大家都很感興趣，有人戲說用Matlab寫實現他論文的code，估計一頁就夠了。其實他之前就以「good features to track」出名了，但他博士論文選擇了segmentation這個方向。他的導師Malik教授的學生好像在這個方向畢業了好幾個博士，這個問題太難了，要知道那時候，還沒有深度學習這麼牛的演算法可用。Malik教授跟深度學習懟的故事估計是路人皆知了，呵呵：）。

當然還能碰到Maryland幫，Davis和Chellappa兩位教授。Davis是著名的background subtraction鼻祖吧（至少他學生是這麼告訴我的），Chellappa後來很快接了當時UIUC教授David Kriegman（DK後來去了UCSD）的班做IEEE PAMI的主編。其實那時候Rosenfeld剛剛退休，誰想到剛剛過70歲大壽就離世了。最遺憾的是，這麼著名的計算機視覺開拓者沒推選為院士。不過，現在還可以看到計算機視覺圈子裡著名的Rosenfeld家族譜。

那個時候Berkeley教授Malik還不是院士，好像計算機視覺圈裡知道的（不算圖像/視頻/醫學圖像/多媒體/機器人/機器學習圈子的，也不算美國以外的）有4個院士，CMU的教授Takeo Kanade, U Penn的教授Ruzena Bajcsy (後來老太太去了Berkeley) ，UIUC的教授Tom Huang和MIT的教授Berthold K.P. Horn。當然有名的計算機視覺大教授或者大學者（來自著名公司，國家實驗室）有不少，包括Rosenfeld。記得當時剛剛當院士的華人有普林斯頓大學的教授Bede Liu，但他大部分在多媒體圈子待著。

回頭看自己的計算機視覺之路，SFM很早就開始做了，那時候逃不掉。那些檢測識別的工作也很難，有些底層的dirty work還是很煩的。SFM工作包括剛體（rigid）和柔體（non-rigid）。那時候最熱的是factorization（不得不說，這是CMU Kanade教授開拓的領域），單目和雙目都有涉獵。有一年CVPR best paper就是基於factorization的人臉跟蹤和建模，是MERL的工作，還是蠻impressive的。

那年剛進Intel的時候，第一個項目就做SLAM。面試我演算法的人是以前著名的AR公司Metaio過來的，聽說Intel想收購Metaio，但對方報價太高，後來改買licence，然後挖人：）。不過他最終也離開Intel了，去了Apple。當時Intel Museum有個AR demo，就是Metaio給做的。當然，Apple收購了Metaio，之後又收購了幾家，然後就有了AR Kit。

參加的這個SLAM項目其實是做KinectFusion的Real Sense版，當然不能叫這個名字了。肯定一些新的方法也加進去了，比如 volume shift，RGB image，loop closure，hierarchical grids等等。後來項目開會的時候也見過KinectFusion的co-author，一個英國新博士。一年之後他去了灣區的那家AR公司MagicLeap，不知道是不是還在那兒。

記得就是這個英國博士離開的時候，SLAM大牛Davison教授又搞出ElasticFusion，那是後話，當時我已經離開項目組去做深度學習了。那年Washington大學提出DynamicFusion，在公開發表之前來Intel矽谷總部做了報告（Fox教授以前是Intel Washington lab的負責人），最後成了CVPR最佳論文。

之後我們開始重點放在camera-based solution，當時微軟研究院剛剛提出了MonoFusion，我們也想做類似的。一年以後微軟改進了演算法，提出了MobileFusion。記得我們是找了一家英國的startup公司Seene合作，那時候3-D view很時髦，Seene做了一個iPhone App可以用camera簡單重建眼前的場景（用手機相機左右掃一下）生成一個立體感的照片，下載量上百萬。

記得Google也做了一個類似的Android App，還有一個前景/背景模糊的功能，當時還有人駭客它的數據格式，挖出了深度圖。後來Google blog公開了演算法，就是MVS之後做CRF模型的優化。當時我們幫Dell做過一個三目的平板電腦，通過立體視覺計算的深度圖也能支持前景/背景模糊。這麼低成本的方法也就是後來著名的light field公司Lytro被賤賣的原因了，國內BAT某家還送了幾千萬美金進去，估計是血本無歸。

我們和Seene合作是想做一個人臉重建的手機App，當然不是在iPhone了。當時Intel Capital還和他們接觸過，後來還是沒有收購它，結果被Snap買了。Seene的CTO是牛津大學視覺組畢業的，博士論文方向是object tracking：）。

找合伙人的時候也接觸過另外一個startup公司Dacuda，是ETH教授出來開的。他們做了一個視覺滑鼠產品，賣得不錯，就是做panorama，然後OCR，生成電子文檔。當時說它家的SLAM技術不錯，結果每次demo時候總是tracking fail。不過一年之後他們做成了！不同於我們和Seene做的地方是，他們的人臉建模是把推選的key frame集傳送到雲端伺服器做的（當然包括camera pose數據），3-D模型要細膩些。一年多以前，我看到，Dacuda被Magic Leap收購了。

在Intel的第三個項目應該是跟Google Project Tango合作吧，RealSense想把自己的depth sensor放進去，之前Tango是用Movidius的（Intel以後收購了它），好像刷新頻率只有15幀，而RealSense同樣解析度情況下可以達到30幀。曾幾次聽Tango的項目負責人Daniel Lee報告，看見他就感覺谷歌生活真是好呀：）。以前，我覺得美國人民真幸福的時候，是在北京大使館看見那個嚼著口香糖的簽證官。

（註：谷歌后來在Apple之後出了AR Core，那麼Project Tango的命運就比較惜惜了。本身依賴depth sensor的平台就比較貴，加上Android不是iOS，硬體不統一，支持AR這樣的應用確實嘈點比較多。當年在Google IO上那麼風光的項目也就唧唧了。）

當然，我也做VR的項目，像全景圖拼接（panoramic view generation by image stitching），球面視圖的繪製（spherical view rendering）等等。關於如何存儲球面視圖，記得當時FB給過一個pyramid coding方法，比6-face cube存儲法的空間小很多，不過它是假設球面兩極的景物重要性低，後來有沒有進標準就沒有再follow。

說實話，當時Intel對VR和AR都非常重視，做晶元的嗎，很重要的就是布局，方向錯了基本就是搭錯車沒轍了。我當時跟著Intel Capital的，也跑過不少VR和AR公司：）。

也提一下VR公司吧，主要是做內容的，因為做設備的基本就剩那幾家了。這裡做VR內容的，一般是做環視全景圖，像Immersive Media, 3D4U/Voke (Intel後來收購了它), NextVR, JauntVR等等，我都去跟他們高層面談過。

記得當時NextVR拿到了國內一家互聯網公司的5000萬美金投資，也真敢吹，說它的panorama不是圖像拼接的，而是深度圖產生的3-D mesh model，因為它和當時Google Jump一樣採用stereo vision。可我看到的PPT，深度圖根本不像是stereo vision產生的，倒像是structured light得到的結果。

另外，我曾經到以色列特拉維夫去技術評估一家做體育內容的創業公司，Replay technology，半年後被Intel收購。它的技術就是CMU RI當年在美國Superbowl展示的那種，多視角重建和新視角生成。他們在體育場架設15-20個攝像頭，8K高清晰度的，自己完成攝像頭標定，需要做背景建模。CEO是以色列軍方出來的，技術很solid。這種產品屬於MVS，而不會是SLAM。

說實話，如果把那個8K攝像機再配上激光雷達，至少128線，那就容易多了。視覺重建難度很大，後來Intel做VR內容的宣傳，就是用激光雷達和360度高清環視攝像頭在一起採集數據，成本很高。後來國內一家創業公司CEO找我，他聽說我了解Replay的技術，過來聊聊，因為他們也想做多視角重建，但用Kinect，而且做室內，主要對象是人體，特別是臉。後來他們在CES展示過自己的產品，估計這裡不少人知道我說的誰：）。