推斷速度提高几十倍，谷歌研究員提出實時端到端雙目系統深度學習網路stereonet

雙目匹配可以得到環境中的三維深度信息，進而為機器人，無人車，VR等現實場景下的應用提供有力信息，在對安全驗證比較高的人臉支付領域，三維人臉驗證也正在逐漸取代安全性較低的二維人臉驗證。近年來，深度學習雙目系統匹配已經取得了很不錯的進展，很多先進的網路性能已經超過傳統方法。然而，深度學習雙目系統匹配仍然在實用方面面臨很多問題，其中一個問題便是無法做到推斷實時。這點嚴重製約了雙目匹配網路在實際中的應用。最近谷歌研究員提出了實時端到端雙目系統深度學習小網路stereonet，推斷速度達到60FPS，遠超之前的方法。

Github地址： https://github.com/meteorshowers/StereoNetNet

背景分析

為了從立體圖像中獲得深度估計值，一個典型的立體匹配演算法包括四步：匹配代價計算，代價聚合，優化和視差精細化。當前最前沿的研究聚焦於如何利用CNNs準確的計算匹配代價和如何利用半全局匹配（SGM）去優化視差圖。

傳統匹配演算法比較經典的稠密匹配演算法是SGM演算法，半全局立體匹配演算法Semi-Global Matching，SGM由學者Hirschmüller在2005年所提出1，提出的背景是一方面高效率的局部演算法由於所基於的局部窗口視差相同的假設在很多情況下並不成立導致匹配效果較差；而另一方面全局演算法雖然通過二維相鄰像素視差之間的約束（如平滑性約束）而得到更好的匹配效果，但是對內存的佔用量大，速度慢。為了結合兩者的優點，同時避免兩者的缺點，SGM演算法依舊採用全局框架，但是在計算能量函數最小化的步驟時使用高效率的一維路徑聚合方法來代替全局演算法中的二維最小化演算法，使用一維最優來近似二維最優，得到的視差圖在效果上和全局演算法沒有太大的差別，但是演算法效率卻有非常大的提升。

Zbontar 和 LeCun 設計了一個深層的Siamese網路去計算匹配代價，利用一對9*9的圖塊，該網路被訓練去學習預測圖塊之間的相似性。他們的方法同樣採用了經典的立體匹配流程，包括代價聚合，SGM和其他視差優化方法來提高匹配結果。更進一步的研究用於改善立體深度估計，Luo等人提出一種更快的Siamese網路，該網路將匹配代價計算轉化為多標籤的分類問題。Shaked 和 Wolf 提出一個高速網路（highway network）來計算匹配代價和一個全局的視差網路去預測視差置信度得分，這方便進一步優化視差圖。近來出現了一些高性能的雙目神經網路，但是其顯存與運行速度遠遠達不到實際應用的場需求，基於此，ECCV2018中stereonet的出現大大提高的雙目系統的運行速度。

作者介紹

該工作是由谷歌研究員Sameh Khamis在ECCV18上發表的一個工作。Sameh Khamis博士畢業於馬裏蘭大學，師從美國馬裏蘭大學計算機系主任Larry S.Davis教授。

網路結構分析