台湾 || 语言: 大陆简体港澳繁體台灣正體

DeepLab 語義分割模型 v1、v2、v3、v3+ 概要（附 Pytorch 實現）

雪花台灣 2019-07-16 15:04

本文是對 DeepLab 系列的概括，主要討論模型的設計和改進，附 Pytorch 實現代碼，略去訓練細節以及性能細節，這些都可以在原論文中找到。

原論文地址：

DeepLabv1
https://arxiv.org/pdf/1412.7062v3.pdfDeepLabv2

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
DeepLabv3Rethinking Atrous Convolution for Semantic Image SegmentationDeepLabv3+Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

DeepLabv1

DeepLabv1 模型結構很容易理解：

首先它是個 VGG-16
然後為了使圖像語義分割更準確，5 個 max-pooling 層 skip 了後兩個（具體實現上，看G站上的代碼，似乎沒有去除，而是保留了後兩個 max-pooling ，只是將 stride = 2 改為 stride = 1，kernal = 3），最後卷積層的輸出整體 stride 從 32x 下降至 8x。
參考 Uno Whoiam：空洞卷積（Dilated Convolution）：有之以為利，無之以為用，由於後兩個 max-pooling 影響了其後的卷積層，使其視野分別下降了 2x 和 4x，為了保持其原來的視野，便將其改成空洞卷積，dilation 分別為 2 和 4，理念與DRN一致：

歡迎掃碼關注~

1 imes 1 — 歡迎掃碼關注~

相关文章