寫在前面:有些地方翻譯的可能不是很好,歡迎在下面留言指正。也歡迎各位在語義分割學習道路上互相交流。

1. Semantic Segmentation with Boundary Neural Fields

摘要:

語義分割的最新技術目前由完全卷積網路(FCN)表示。但是,FCN使用大的感知區域和許多池化層,這兩種技術都會導致深層中的模糊和低空間解析度。因此,FCN傾向於產生在對象邊界周圍定位不良的分割。先前的工作已經嘗試在後處理步驟中解決該問題,例如在FCN預測之上使用基於顏色的CRF。但是,這些方法需要額外的參數和低級特徵,這些特徵難以調整並集成到原始網路架構中。此外,大多數CRF使用基於顏色的像素親和力,這種親和力不太適合語義分割並導致空間不相交的預測。

為了克服這些問題,我們引入了邊界神經場(BNF),這是一種將FCN預測與邊界線索相結合的全局能量模型。邊界信息用於增強語義分割的一致性並改善對象定位。具體來說,我們首先表明語義FCN的卷積濾波器為邊界檢測提供了良好的特徵。然後,我們使用預測的邊界來定義能量中的成對電位。最後,我們表明我們的能量將語義分割分解為多個二元問題,可以放寬這些問題以進行有效的全局優化。我們報告了大量實驗,證明我們的全球邊界能量產量最小化的結果優於先前的全局化方法,無論是在數量上還是在質量上。

2. Attention to Scale: Scale-aware Semantic Image Segmentation

摘要:

在完全卷積神經網路(FCN)中結合多尺度特徵一直是實現語義圖像分割的最先進性能的關鍵因素。提取多尺度特徵的一種常用方法是將多個已調整大小的輸入圖像饋送到共享深度網路,然後合併所得到的特徵以進行按像素分類。在這項工作中,我們提出了一種注意機制,可以學習對每個像素位置的多尺度特徵進行輕微加權。我們採用最先進的語義圖像分割模型,與多尺度輸入圖像和注意模型共同訓練。所提出的注意模型不僅優於平均和最大池化,而且允許我們診斷地可視化在不同位置和尺度上特徵的重要性。此外,我們表明,在合併多尺度特徵時,為每個尺度的輸出添加額外的監督對於實現卓越的性能至關重要。我們通過對三個具有挑戰性的數據集進行了大量實驗來證明我們的模型的有效性,包括PASCAL-Person-Part,PASCAL VOC 2012和MS-COCO 2014的子集。

3. Semantic Image Segmentation with Task-Specific Edge Detection Using CNNs and a Discriminatively Trained Domain Transform

摘要:

深度卷積神經網路(CNN)是現有技術語義圖像分割系統的支柱。 最近的工作表明,用完全連接的條件隨機場(CRF)補充CNN可以顯著提高它們的對象定位精度,但是密集的CRF推斷在計算上是昂貴的。 我們建議用域變換(DT)替換完全連接的CRF,這是一種現代邊緣保留濾波方法,其中平滑量由參考邊緣圖控制。 域變換過濾比密集CRF推理快幾倍,我們證明它產生可比較的語義分割結果,準確捕獲對象邊界。 重要的是,我們的公式允許從中間CNN特徵學習參考邊緣圖,而不是像標準DT過濾那樣使用圖像梯度大小。 這在端到端可訓練系統中產生任務特定邊緣,從而優化目標語義分割質量。

4. Instance-aware Semantic Segmentation via Multi-task Network Cascades

摘要:

語義分割研究最近見證了快速進展,但許多領先的方法無法識別對象實例。在本文中,我們提出了多任務網路級聯用於實例感知語義分割。我們的模型由三個網路組成,分別是區分實例,估計掩碼和分類對象。這些網路形成級聯結構,旨在共享其卷積特徵。我們開發了一種演算法,用於對這種因果級聯結構進行非平凡的端到端訓練。我們的解決方案是一個簡潔的單步培訓框架,可以推廣到具有更多階段的級聯。我們在PASCAL VOC上展示了最先進的實例感知語義分割準確性。同時,我們的方法僅使用VGG-16測試圖像僅需360ms,這比以前的系統快兩個數量級,以應對這一具有挑戰性的問題。作為副產品,我們的方法還實現了令人信服的物體檢測結果,超過了競爭對手的快速/快速R-CNN系統。

本文中描述的方法是我們向MS COCO 2015細分競賽提交的基礎,我們贏得了第一名。

5.Learning Transferrable Knowledge for Semantic Segmentation with Deep Convolutional Neural Network

摘要:

我們提出了一種基於深度卷積神經網路(DCNN)的新型弱監督語義分割演算法。與現有的弱監督方法相反,我們的演算法利用可用於不同類別的輔助分割注釋來引導僅具有圖像級類標籤的圖像上的分割。為了使分類知識可以跨類別傳遞,我們設計了一個帶有注意模型的解耦編碼器 - 解碼器架構。在該架構中,模型使用關注模型生成在圖像中呈現的每個類別的空間亮點,並且隨後使用解碼器對每個突出顯示的區域執行二進位分割。結合注意力模型,用不同類別的分割注釋訓練的解碼器提高了弱監督語義分割的準確性。當我們的模型使用Microsoft COCO數據集中的60個獨有類別的注釋進行訓練時,與PASCAL VOC 2012數據集中的最新弱監督技術相比,所提出的演算法表現出顯著改善的性能。

6. Feature Space Optimization for Semantic Video Segmentation

摘要:

我們提出了一種語義視頻分割中的遠程時空正則化方法。 視頻中的時間正規化是具有挑戰性的,因為相機和場景都可能處於運動中。 因此,時空體積中的歐幾里德距離不是對應的良好代理。 我們優化像素到歐幾里德特徵空間的映射,以便最小化相應點之間的距離。 結構化預測由密集的CRF執行,該CRF對優化的特徵進行操作。 實驗結果表明,所提出的方法提高了語義視頻分割的準確性和時間一致性。

7. Efficient Piecewise Training of Deep Structured Models for Semantic Segmentation

摘要:

語義圖像分割的最新進展主要通過訓練深度卷積神經網路(CNN)來實現。我們展示了如何通過使用上下文信息來改進語義分割;具體來說,我們探索圖像區域和「補丁 - 背景」上下文之間的「補丁補丁」上下文。為了從補丁補丁上下文中學習,我們使用基於CNN的成對勢函數來制定條件隨機場(CRF),以捕獲相鄰補丁之間的語義相關性。然後應用所提出的深度結構化模型的有效分段訓練以避免反向傳播的重複昂貴的CRF推斷。為了捕獲補丁背景上下文,我們展示了具有傳統多尺度圖像輸入和滑動金字塔池化的網路設計對於提高性能是有效的。我們的實驗結果在許多流行的語義分割數據集上設置了新的最先進的性能,包括NYUDv2,PASCAL VOC 2012,PASCAL-Context和SIFT-flow。特別是,我們在具有挑戰性的PASCAL VOC 2012數據集上實現了78.0的IoU分數。

8. ScribbleSup: Scribble-Supervised Convolutional Networks for Semantic Segmentation

摘要:

大規模數據對於學習語義分割模型至關重要,但是對每像素掩碼進行注釋是一個繁瑣且低效的過程。我們注意到,對於互動式圖像分割的主題,塗鴉在學術研究和商業軟體中被廣泛使用,並且被認為是最用戶友好的交互方式之一。在本文中,我們建議使用塗鴉來注釋圖像,並開發一種演算法來訓練卷積網路,用於由塗鴉監督的語義分割。我們的演算法基於圖形模型,該圖形模型共同將信息從塗鴉傳播到未標記的像素並學習網路參數。我們通過使用塗鴉作為注釋在PASCAL VOC數據集上呈現競爭對象語義分割結果。 Scribbles也有利於注釋沒有明確定義的形狀的東西(例如水,天空,草),並且由於額外的廉價塗鴉注釋,我們的方法在PASCALCONTEXT數據集上顯示出優異的結果。有關PASCAL VOC的塗鴉注釋可在research.microsoft.com/上找到。

9. Hierarchically Gated Deep Networks for Semantic Segmentation

摘要:

語義分割旨在通過將標籤注釋到每個像素來解析圖像的場景結構,使得圖像可以被分割成不同的區域。雖然圖像的結構通常具有各種尺度,但是難以使用單個尺度來為所有獨立像素的空間上下文建模。多尺度卷積神經網路(CNN)及其變體在為圖像的全局場景結構建模方面取得了驚人的成功。然而,它們僅限於標記細粒度局部結構(如像素和斑塊),因為沒有適當地定製它們的尺度的話,空間上下文可能會盲目地混淆。為了應對這一挑戰,我們開發了一種新的多尺度深度網路範例,用於模擬不同尺度的不同像素周圍的空間背景。它構建多層存儲器單元,通過層之間的存儲器門分層吸收相關的空間上下文,以定製的尺度學習各個像素的特徵表示。這種分層門控深度網路(HGDN)可以為每個像素定製合適的比例,從而在標記各種比例的場景結構時提供更好的性能。我們在兩個數據集上進行實驗,並在語義分割任務上與其他多尺度深度網路相比顯示出競爭結果。

10. Optical Flow with Semantic Segmentation and Localized Layers

摘要:

現有的光流方法對流的空間結構做出通用的,空間上均勻的假設。實際上,取決於對象類別,光流在圖像上變化。簡單地說,不同的物體移動不同。在這裡,我們利用靜態語義場景分割的最新進展將圖像分割成不同類型的對象。我們根據物體的類型在這些區域中定義不同的圖像運動模型。例如,我們模擬道路上的運動與單應性,具有空間平滑流動的植被,以及獨立移動的物體,如具有仿射運動和偏差的汽車和飛機。然後,我們使用局部層的新穎公式來提出流估計問題,其解決了傳統分層模型用於處理複雜場景運動的限制。我們的語義流方法在KITTI-2015流量基準測試中實現了任何已發布的單眼方法的最低誤差,並且在廣泛的自然視頻上產生了比最近的頂級方法更好的流動和分割。

11. Gaussian Conditional Random Field Network for Semantic Segmentation

摘要:

與使用離散條件隨機場(CRF)模型的現有方法相比,我們建議使用高斯CRF模型來進行語義分割。我們提出了一種新穎的深度網路,我們稱之為高斯平均場(GMF)網路,其層在高斯CRF上執行平均場推斷。所提出的GMF網路具有所需的特性,其每個層產生的輸出更接近於高斯CRF的最大後驗解與其輸入相比。通過將提出的GMF網路與深度卷積神經網路(CNN)相結合,我們提出了一種新的端到端可訓練高斯條件隨機場網路。所提出的高斯CRF網路由三個子網路組成:(i)用於產生一元電位的基於CNN的一元網路,(ii)用於產生成對電位的基於CNN的成對網路,以及(iii)用於執行高斯CRF推斷的GMF網路。當以有區別的方式進行端到端訓練,並在具有挑戰性的PASCALVOC 2012分割數據集上進行評估時,所提出的高斯CRF網路優於各種最近的語義分割方法,這些方法將CNN與離散CRF模型相結合

12. Actor-Action Semantic Segmentation with Grouping Process Models

摘要:

演員動作語義分割向高級視頻理解邁出了重要的一步:正在發生什麼行動;誰正在執行該行動;在時空中發生的行動在哪裡。基於針對該問題的分層CRF的當前方法是局部的並且不能捕獲視頻部分的長程交互。我們提出了一種新的模型,它將標記CRF與超級體素層次結合起來,其中各種尺度的超級體素為CRF中可能的節點分組提供線索,以促進自適應和長距離交互。新模型定義了一個動態和連續的信息交換過程:CRF影響層次結構中的超級體素是活躍的,這些活躍的超級體素反過來影響CRF中的連接性;因此我們稱之為分組過程模型。通過進一步結合視頻級識別,所提出的方法相對於最近的A2D大規模視頻標記數據集的現有技術實現了60%的相對改進的大幅度,這證明了我們的建模的有效性。


推薦閱讀:
相关文章