和朋友討論一個產品的時候,談到圖片識別的問題,準確地說是物體識別問題。

比如說,我先拍攝了某幾隻汪星人(如Doge)的多角度圖片,然後丟給計算機機器學習,然後我再以隨意的一個角度拍了一張Doge的圖片(簡單起見Doge一直保持體位不變),

這時我把這張圖片丟給計算機識別,它的分類效果能否達到可用的準確率(比如七成)?

之前了解過車牌識別的相關內容,其中大角度矯正是一個難點,是人工寫矯正演算法去矯正,而不是識別演算法自動匹配傾斜後的特徵。不知道現在的機器學習,特別是深度學習,能否做到上述的多角度物體識別(分類)?如果可以的話,有無現成的庫或介面可使用呢?

PS:前期訓練只有數張照片,比如前後左右上下六個視角的照片,例如下圖的大白模型,這樣是否有可能完成任意視角的識別呢?


按你舉的例子來說不行。 不管採用什麼方法去訓練,到最後本質上還是提特徵。不管在怎麼抽象的特徵,只要拿圖片來訓練最後肯定會依託與圖像本身的像素點。

你的最後兩張圖的特徵點明顯就變了。

為什麼人腦可以?因為人腦提了特徵後能夠加以聯想和映射,這就屬於提特徵之後的工作了。
可以通過圖像的翻轉、切割等增大樣本量,但幾幅初始圖像感覺數目還是有些少,或者可以採用現有的在ImageNet上的模型,只用訓練圖像訓練較高的幾層~


可以的,其實在訓練中可以通過對樣本進行類似扭轉,變形處理。來進行data argument。就可以搞定該問題,精度取決於具體的實現
視頻:李飛飛-我們怎麼教計算機理解圖片?或者從網易公開課看。這個是關於大牛的問答:被稱為業界大牛的斯坦福計算機視覺實驗室的李飛飛具體牛在哪裡? - 深度學習(Deep Learning) - 知乎
這裡有相當的一部分是Computer Vision領域的問題。可以參考這篇文獻:http://vision.eecs.ucf.edu/papers/PingkunICCV07.pdf。以前上CV課的時候有一道作業題是匹配從不同角度拍攝的同一個物體,那時使用的方法在角度大於30°的時候匹配的準確度就會大大下降了,主要是因為使用的descriptor對旋轉沒有耐受性。
現在做得最成熟的人臉識別 對於不同角度的圖片還需要做alignment。對於一般物體,如果角度變化過大的話識別起來肯定比較困難的,除非有大量的各種角度的訓練數據。像題主說的這種情況,只有少數幾幅訓練樣本,要去識別任意角度下的目標圖像,應該難度很大。
推薦閱讀:
相关文章