R Talk | 曠視南京研究院魏秀參：細粒度圖像分析綜述

「R Talk 」是曠視推出的一個深度學習

專欄，將通過不定期的推送展示曠視科技的學術分享及階段性技術成果。「R」是 Research 的縮寫，也是曠視研究院的內部代號；而所有的「Talk」都是來自曠視的 Researcher。「R Talk 」旨在通過一場場精彩紛呈的深度學習分享，拋磚引玉，推陳出新，推動中國乃至全球領域深度學習技術的大發展。

第 4 期 R Talk 主題是細粒度級別圖像分析領域的現狀與展望，講述者是曠視科技南京研究院負責人魏秀參博士；主要內容包含 5 個方面：

1）簡單介紹細粒度圖像分析領域；

2）細粒度圖像檢索現狀；

3）細粒度圖像識別現狀；

4）細粒度圖像分析相關的其他計算機視覺

任務；

5）細粒度圖像分析發展展望。

附1：視頻鏈接

《細粒度級別圖像分析領域的現狀與展望》視頻?

www.bilibili.com

介紹

在傳統計算機視覺研究中，圖像分析通常是針對諸如「狗」「車」和「鳥」等傳統意義類別上的分類、檢索。而在許多實際應用中，圖像對象往往來自某一傳統類別下較細粒度級別的不同子類類別，如不同種類的「狗」——哈士奇、阿拉斯加、比熊

等；或不同種類的「車」——奧迪、寶馬、賓士等。

細粒度級別圖像分析是針對此類問題的一項計算機視覺領域熱門研究課題，其目標是對上述細粒度級別圖像中的物體子類進行定位、識別及檢索等若干視覺分析任務的研究，具有真實場景下廣泛的應用價值。然而因細粒度級別子類別間較小的類間差異和較大的類內差異，使其區別於傳統圖像分析問題成為更具挑戰的研究課題。

現實世界中有非常普遍的細粒度圖像分析任務。比如美國大自然保護協會曾在kaggle舉辦的、針對捕魚業中海船上若干種魚類的細粒度分類，甚至還有根據鯨魚尾部進行個體級別的更加細粒度的識別任務。此外，還有針對植物樹葉的細粒度識別，城市管理場景中對過往車輛的細粒度分析，新零售場景中商品識別的細粒度識別和檢索等等。

解決細粒度圖像分析的一個關鍵是找到細粒度物體的Keypoints，利用這些關鍵部位的不同，進行針對性的細粒度分析，如檢索、識別等。目前，細粒度圖像分析領域的經典基準數據集包括：

鳥類數據集CUB200-2011，11788張圖像，200個細粒度分類
狗類數據集Stanford Dogs，20580張圖像，120個細粒度分類
花類數據集Oxford Flowers，8189張圖像，102個細粒度分類
飛機數據集Aircrafts，10200張圖像，100個細粒度分類
汽車數據集Stanford Cars，16185張圖像，196個細粒度分類

細粒度圖像分析一直是一個火熱的計算機視覺研究方向。每年計算機視覺頂級會議如CVPR、ICCV、ECCV、IJCAI以及頂級期刊如TPAMI、IJCV、TIP等都有大量相關論文出現。此外，圍繞這一方向還頻繁舉辦相關Workshop和挑戰賽，比如Workshop on Fine-Grained Visual Categorization、The Nature Conservancy Fisheries Monitoring、iFood Classification Challenge等。在細粒度圖像分析領域，一些國際頂尖的研究機構，如斯坦福大學、加州伯克利、牛津大學皆是細粒度研究的科研重鎮。

細粒度圖像分析一般有兩個核心任務，一是細粒度圖像檢索，二是細粒度圖像識別。下面將分別進行重點介紹。