單目深度估計論文筆記（二）：有序回歸網路

照例，論文題目《Deep Ordinal Regression Network for Monocular Depth Estimation》，來自18年CVPR。深度估計問題原本是回歸問題，需要預測的深度值是連續的。本文提出將連續的深度值離散化，轉化為分類問題。（之前也有工作是轉化為回歸問題）但這個分類問題又不同於普通的分類問題，深度值的分類是有規律的，根據遠近關係，所有的類別可以按照從小到大的次序排列。這就是所謂的「有序回歸」(ordinal regression)。此外，作者還針對低維特徵圖到高維深度圖這個過程對網路做了優化，降低時間和空間的損耗。

將回歸問題轉化為分類問題，要做的就是對連續的深度值採樣。考慮到隨著真實深度值的增大，在預測中的不確定度也會提高，這提示我們或許可以在預測較大深度值的時候允許相對大一點的誤差。據此，文中提出空間增加離散方法(spacing-increasing discretization, SID)進行採樣，避免訓練過程中過度強調大深度值的影響。得到採樣後的離散深度值以後，就可以用於有序回歸網路訓練。

之前所有用深度神經網路做深度估計的方法都是把深度網路當作一個特徵提取器，得到一個低維的特徵圖，再通過解卷積網路、多尺度網路、跳躍連接等方式得到高解析度的深度圖。這樣的方式不僅需要額外的計算和內存，還使網路結構變得複雜導致訓練和預測的過程變慢。借鑒最近在場景解析(scene parsing)方面的工作，作者採取了膨脹卷積(dilated convolution)代替池化層獲取更大的感受野，不同膨脹率就含有了不同尺度的信息。還使用了一個全圖編碼器提取全局信息。

網路結構如下：輸入圖像經過一個卷積網路，這個網路與其他提取特徵的網路的區別在於去掉了一些池化層，所以這邊說特徵提取器是緻密的，也即特徵圖的尺寸比較大。隨後特徵圖經過了五個通道，包括一個全圖編碼器、一個卷積運算、3個尺度的膨脹卷積，這五個通道的結果串聯起來構成了場景理解模塊。再經過一個1*1的卷積（用來整合五個通道的信息）送給有序回歸部分得到深度圖的輸出。