編者按:對於視覺識別中的區域層次和像素層次問題,分類網路(如ResNet、VGGNet等)學到的表徵解析度比較低,在此基礎上恢復的高解析度表徵空間區分度仍然不夠強,使其在對空間精度敏感的任務上很難取得準確的預測結果。為此,微軟亞洲研究院視覺計算組提出高解析度深度神經網路(HRNet),對網路結構做了基礎性的改變,由傳統的串列連接高低解析度卷積,改成並行連接高低解析度卷積,通過全程保持高解析度和對高低解析度表徵的多次信息交換來學到豐富的高解析度表徵,在多個數據集的人體姿態估計任務中取得了最佳的性能。
前言
視覺識別主要包括三大類問題:圖像層次(圖像分類),區域層次(目標檢測)和像素層次(比如圖像分割、人體姿態估計和人臉對齊等)。最近幾年,用於圖像分類的卷積神經網路成為解決視覺識別問題的標準結構,比如圖1所示的LeNet-5。這類網路的特點是學到的表徵在空間解析度上逐漸變小。我們認為分類網路並不適合區域層次和像素層次的問題,因為學到的表徵本質上具有低解析度的特點,在解析度上的巨大損失使得其在對空間精度敏感的任務上很難取得準確的預測結果。