專欄《圖像分割模型》正式完結了。在本專欄中,我們從編解碼結構入手,講到解碼器設計;從感受野,講到多尺度融合;從CNN,講到RNN與CRF;從2D分割,講到3D分割;從語義分割到實例分割和全景分割。這篇文章我們就一起回顧一下這些網路結構。

作者 | 孫叔橋

編輯 | 言有三

1 FCN

Fully Convolutional Network(FCN)是神經網路用於圖像分割任務的鼻祖,後續提出的大部分基於編解碼結構的圖像分割網路都是從FCN上發展、改進而來的。

FCN用卷積層替換了分類網路結構中的全連接層,從而得到稠密的分割結果,實現端到端訓練。

同時,網路還將不同尺度下的特徵信息進行融合,實現更細節的圖像分割。

  • 【圖像分割模型】從FCN說起

2 SegNet

SegNet在FCN的基礎上增加了解碼器,形成目前分割任務中最流行的編解碼結構,並給出了不同解碼器對效果的影響和原因。

此外,由於應用了基於位置信息的加碼過程,相比較FCN而言,SegNet中的對應結構的體量要小得多。

  • 【圖像分割模型】編解碼結構SegNet

3 空洞卷積

編解碼結構中,為了平衡空間尺寸與計算量,同時增大網路結構的感受野,通常會對輸入圖像進行一定的下採樣。為了恢復分割結果的空間解析度,解碼器往往需要應用上採樣或反捲積。

但是,基於插值的上採樣效果通常不理想,而反捲積操作則增加了計算量。基於此,DeepLab中就提出了「空洞卷積」的概念,在不增加參數個數的基礎上,實現感受野與解析度的控制。

  • 【分割模型解讀】感受野與解析度的控制術—空洞卷積

4 ENet

圖像分割的任務最終還是要落腳於實際應用,而此前的網路結構最快也只能達到1fps,遠不及實時所需要的10fps。

ENet基於空洞卷積,實現了NVIDIA TX1上解析度480x320下的21.1fps。

此外,文中還介紹了設計實時網路結構所需要考慮的6個重要內容。

  • 【圖像分割模型】快速道路場景分割—ENet

5 CRFasRNN

在許多計算機視覺任務中,後處理操作能夠有效提升演算法的質量。而在眾多後處理方法中,條件隨機場(CRF)的效果名列前茅。

然而,CRF的理論性強,應用起來不方便。因此,CRFasRNN中提出以RNN的形式實現CRF的解決方案,從而讓基於CRF的後處理變得簡單。

  • 【圖像分割模型】以RNN形式做CRF後處理—CRFasRNN

6 PSPNet

不同感受野下所帶來的上下文信息對圖像分割而言十分重要,往往感受野選擇的恰當性會直接影響最終的分割效果,這種影響對極端尺寸(極大和極小)目標表現地尤為明顯。

為了在同一級別下融合多尺度下的上下文信息,PSPNet提出了池化金字塔結構,從而實現了可以理解目標所處環境的圖像分割。

  • 【圖像分割模型】多感受野的金字塔結構—PSPNet

7 ParseNet

儘管從網路結構看,有些網路的理論感受野能夠達到非常大,但實際上,理論感受野並不能等同於實際感受野,其覆蓋和利用的信息也不夠完整。

基於這個發現,ParseNet提出了基於池化的全局特徵利用,從而實現全局特徵與局部特徵融合下的圖像分割。

文中也介紹瞭如何有效融合兩種特徵,並利用好融合特徵。

  • 【圖像分割模型】全局特徵與局部特徵的交響曲—ParseNet

8 RefineNet

儘管前面的特徵融合方法能夠恢復在計算過程中被下降的空間解析度,但是這種恢復往往沒有利用完整的原始空間信息,從而導致最終結果中的信息丟失。

基於此,RefineNet設計了空間解析度的恢復結構,實現了基於殘差卷積模塊(RCU)、多解析度融合模塊(MRF)和串聯殘差池化模塊(CRP)下的高精度圖像分割。

  • 【圖像分割模型】多解析度特徵融合—RefineNet

9 ReSeg

儘管CNN的效果不錯,但是其需要依賴人工指定的核函數實現計算,從而限制了上下文的處理能力。因此,ReSeg提出基於雙向循環神經網路(BRNN)實現分割,來克服這種不足。

在ReNet的基礎上,ReSeg通過依次掃描互相垂直的兩個方向,實現不同時序下的特徵提取。

  • 【圖像分割模型】用BRNN做分割—ReSeg

10 LSTM-CF

除了單純基於2D的RGB圖像的分割外,圖像分割任務的完成還可以利用深度信息進行輔助,從而實現紋理信息下無法判斷的分割。

LSTM-CF基於ReNet和空洞卷積,實現結合了深度信息的圖像分割。為精度提升和深度信息利用提供了一種思路。

  • 【圖像分割模型】BRNN下的RGB-D分割—LSTM-CF

11 DeepMask

除了語義分割,圖像分割中還有另外兩種類別的任務:實例分割和全景分割。

我們通過DeepMask,給出了實例分割下的網路的設計思路。DeepMask可以同時實現前背景分割、前景語義分割和前景實例分割。

  • 【圖像分割模型】實例分割模型—DeepMask

12 全景分割

語義分割與實例分割任務雖然相似,但是由於度量不同,二者無法直接結合。為了實現整圖內things類別和stuff類別的同時分割,全景分割任務提出了新的度量。

全景分割任務下,圖像內的每個像素點都有其對應的語義標籤和實例標籤(things類別),從而能夠最大程度上地理解整幅圖像。

  • 【圖像分割模型】全景分割是什麼?

推薦閱讀:

相關文章