圖像分類與檢測綜述

圖像分類與檢測是現今計算機視覺處理中最為常見的兩項任務，本文盡量綜述一下傳統的圖像分類與檢測與現今的圖像分類與檢測技術。以下是要講的幾個方面：

圖像分類與檢測概述
傳統的圖像分類與檢測方法
現今的圖像分類與檢測方法

1 圖像分類與檢測概述

當我們面對一張圖片的時候，最基礎的任務就是這張圖片是什麼，是風景圖還是人物圖、是描寫建築物的還是關於食物的，這就是分類。分類作為一個較為籠統的目標，還是較為好達成的。當知道了圖像的類別的時候，進一步的就是檢測了，例如我知道這個圖像是關於人臉的，那麼這個人臉在哪裡，能不能把它框出來。檢測作為一個較為精細的目標，達成的難度可以說是遠大於分類的。

1.1 圖像分類與檢測的難點

不只是圖像分類與檢測，幾乎所有的關於機器學習的難點，都是特徵提取這一步，一旦找到好的特徵，分類與檢測就變的很容易了。所謂的特徵提取就是指構建一種提取演算法，提取出圖像裏目標對象的特徵，例如人臉的邊緣特徵、皮膚的顏色特徵等，這個特徵需要儘可能的將目標物體與其他物體區分開來，例如需要區分的物體是黑貓和白貓，那麼毫無疑問顏色特徵是一個很好的特徵。但是，生活中遇到的難題往往都是很難去提取特徵的，例如在嘈雜的街道上檢測行人與車輛，這種任務對於檢測演算法的正確率要求很高，因為一不小心漏檢或錯檢一個人可能就會帶來一場車禍。

1.2 圖像分類與檢測的評價指標

圖像分類的指標比較常見，就是分類的正確率，例如貓狗分類，100張中99張分類正確，那麼正確率就是99%的正確率。對於目標檢測來說，評價指標就多了一些，主要是檢錯率、漏檢率以及檢測meaniou，檢錯率是指一張圖片上有兩隻貓一隻狗，而你的模型檢測出了三隻貓，那麼那第三隻貓就是檢錯的，檢錯率就是33%；漏檢的意思是如果你將上面的圖片只檢測出一隻貓和一隻狗的話，那就是漏檢了一隻貓，漏檢率33%；mean_iou指的是你檢測出來的目標物體的框和真實的框之間的交並比，如下圖：