Occlusion Aware Unsupervised Learning of Optical

CVPR 2018 論文原文：

Occlusion Aware Unsupervised Learning of Optical Flow?

arxiv.org

用Unsupervised的方法估計視頻的optimal flaw。通過逆求光流生成遮罩層，一定程度上解決了Occlusion的問題。通過擴大搜索區域，一定程度上結果了large motion的問題。

Preliminary

FlowNet ：一個用於預測光流的CNN網路。Supervised。

Learning Optical Flow with Convolutional Networks?

arxiv.org

Unsupervised Learning of Optimal Flow: 在 FlowNetS 後面加上Unsupervised 模塊。但是沒有解決Occlusion和 large motion 的問題。

Unsupervised Learning of Optical Flow via Brightness Constancy and Motion Smoothness?

arxiv.org

演算法框架

演算法分為兩層。上層為主要的訓練層，下層為遮罩層。

上層

FlowNetS 輸出 Forward Flow $F_{12}$ 。理想情況下，位置上的像素值應該跑到 $I_2(x_1+F_{12}^x(x_1,y_1), y_1+F_{12}^y(x_1,y_1))$ 位置。因此我們藉助 $F_{12}$ 和就能構建出一張warping得到的 $hat{I}_1$ 。 $hat{I}_1(x_1,y_1)=I_2(x_1+F_{12}^x(x_1,y_1), y_1+F_{12}^y(x_1,y_1))=I_2(x_2,y_2)$ 。通過對比 $hat{I}_1$ 和，我們就能訓練 FlowNetS 了。

不過， $x_2=x_1+F_{12}^x(x_1,y_1)$ 和 $y_2=y_1+F_{12}^y(x_1,y_1)$ 可不一定是整數，因此我們取周圍4個像素的雙線性插值後的結果[1]：

$hat{I}_1(x_1,y_1)=sum_n^H sum_m^W I_2(n,m)max (0, 1-left| x_2-m ight|)max (0, 1-left| y_2-n ight|)$

求導得

$frac{partial hat{I}_1(x_1,y_1)}{partial x_2} =sum_n^H sum_m^W I_2(n,m)max (0, 1-left| y_2-n ight|) egin{cases} 0& ext{if} left| x_2 - m ight| geq1 \ 1 & ext{if } mgeq x_2 \ -1& ext{if } m< x_2 end{cases}$

類似的，我們可以求出 $frac{partial hat{I}_1(x_1,y_1)}{partial y_2}$ 。

我們可以見到導數會促使向它周圍四個點中像素值最接近的那個點移動。而如果它周圍的四個點都和的像素值差別都比較大的時候，求導會得出錯誤的方向。為了解決這個問題，這篇文章在 bilinear 的基礎上提出了新的 sampling 方法：

演算法在周圍創造了一個更大的取值範圍，在這個範圍里選取一個像素值與_ 最接近的點，並以和它相對於的三個鏡像點做 bilinear interpolation。比如上圖中，如果採用基本的 bilinear 方法，應該選擇四個黑色的點。而論文提出的方法則是選用四個帶有紅色加號的點做 bilinear interpolation，從而計算出的像素值，接著便能求導，從而逐漸靠近。

下層

輸入時先將與調換，FlowNetS 輸出 Backward Flow $F_{21}$ 。 $F_{21}$ 用來生成一個遮罩層： $F_{21}$ 可以將回退到的狀態，這是圖像上必然有一些空缺的地方，這些地方就是因為視角變化而被遮擋的像素。網路就不用費勁在中匹配這些像素了，因為這些像素在根本就不存在。

上圖就是一個例子。我們從左上角開始看，中的B像素在中是被遮擋的，A像素從移動到了 , 所以 $F_{21}(1,2)=-1$ 。我們根據 $F_{21}$ 將回退到的狀態，可以發現A被移回了 , 同時的位置上還有E像素，所以。而，說明中沒有任何像素是由而來。對取一個閾值，便得到了遮罩層。

數學表達：

$V(x_1,y_1)=sum_{x_2}^W sum_{y_2}^H max(0,1-left| x_1-(x_2+F_{21}^x(x_2,y_2) ight|) \ cdot max(0,1-left| y_1-(y_2+F_{21}^y(x_2,y_2) ight|)$

因為 $x_2+F_{21}^x(x_2,y_2)$ 不一定是一個整數，所以還需要用上文中的 bilinear interpolation方法。

Loss Function

Photometric Loss

用 Charbonnier penalty formula $Psi (s)=sqrt{s^2+0.001^2}$ 來計算Photometric Loss。用來衡量image brightness的loss，用來衡量image gradient的 loss。

$L_p^1=frac{sum_{i,j} Psi (hat{I}_1(i,j)-I_1(i,j)) cdot O(i,j)}{sum_{i,j}O(i,j)}$

$L_p^2=frac{sum_{i,j} Psi ( riangledown hat{I}_1(i,j)- riangledown I_1(i,j)) cdot O(i,j)}{sum_{i,j}O(i,j)}$

Smoothness Loss

Photomatric loss 只有在非遮擋區域才有效。而對於被遮擋的區域，我們用Smoothness Loss來進行優化。一般來說，一個物體的光流是比較smooth的，所以光流圖像中的邊緣要和原圖中的邊緣基本一致。所謂邊緣，其實就是圖像的一階導數。

$L_s^1=sum_{i,j} sum_{din{x,y}} Psi(left| partial_d F_{12}(i,j) ight| e^{-alpha left| partial_d I_1(i,j) ight|})$

$L_s^2=sum_{i,j} sum_{din{x,y}} Psi(left| partial_d^2 F_{12}(i,j) ight| e^{-alpha left| partial_d I_1(i,j) ight|})$

Smooth Loss 最早被用於[2]. 我是這樣理解這個式子的： $left| partial_d F_{12}(i,j) ight|$ 代表光流的平滑程度，這個值越小，光流越平滑。可是我們只希望物體內部的光流儘可能平滑，物體邊緣地方的光流大一些也沒有所謂，因此我們就成一個係數 $e^{-alpha left| partial_d I_1(i,j) ight|})$ 。在物體邊緣， $e^{-alpha left| partial_d I_1(i,j) ight|}$ 很小，在物體內部， $e^{-alpha left| partial_d I_1(i,j) ight|}$ 趨近於1。

除此之外，這篇文章還對FlowNetS的結構進行了一些小調整。

參考文獻

[1] Jaderberg, Max, Karen Simonyan, and Andrew Zisserman. "Spatial transformer networks."Advances in neural information processing systems. 2015.

[2] Heise P, Klose S, Jensen B, et al. Pm-huber: Patchmatch with huber regularization for stereo matching[C]//Proceedings of the IEEE International Conference on Computer Vision. 2013: 2360-2367.

Occlusion Aware Unsupervised Learning of Optical

CVPR 2018 論文原文：

Preliminary

演算法框架

Loss Function

參考文獻

热门新闻

周热门

Occlusion Aware Unsupervised Learning of Optical

CVPR 2018 論文原文：

Preliminary

演算法框架

Loss Function

參考文獻

請問一下論文需要用機器學習，但是沒有標籤，可以用無監督學習評估作為標籤再機器學習嗎？

如何看待saliency 領域2019 NeurIPS 論文對比實驗數據照搬 2018 CVPR？

為什麼越簡單的工作越容易拖延，有難度的工作反而效率很多？

深入機器學習應該從哪門課或哪本書開始？求推薦資源？

機器學習中的維度懲罰(Curse of dimensionality)怎麼理解？

一組沒有標籤的數據，需要分類，比如5類，且每一類都可以用一組特定的數據來描述，有合適的分類演算法嗎？

請問大家喜歡用什麼打卡軟體？

如何用數據破壞深度學習模型？

PN-28: Sub-policy Adaptation for HRL (arXiv 1906)

重磅！圖像分類相關文獻/代碼大列表

輕量型網路：MixNet解讀

強化學習之Q-Learning

【學習筆記】cs231n中assignment1中的k-Nearest Neighbor (kNN) exercise

【學習筆記】cs231n中assignment2的dropout

詳解PyTorch中的ModuleList和Sequential

热门新闻

周热门