計算機視覺的火爆是伴隨著深度學習的發展而來的。深度學習的發展大大促進了計算機視覺在生活中的應用。另一方面,沒有計算機視覺,恐怕深度學習也不會這麼快統治機器學習界。兩者是相輔相成的。所以首先應該正視這個現象。

做的人多了,灌水的也多。這是很正常的,任何研究方向都有灌水的,只不過視覺太火,所以人更多。沒什麼好嫌棄的。

工業界這幾年也在計算機視覺上收穫了很多紅利,直接導致了人工智慧熱潮的到來。然而隨著行業壁壘逐漸打破,技術到達了天花板,人工智慧熱潮也在逐漸褪去。

當所有人都可以入門計算機視覺的時候,當小學生都能做相關研究的時候,說明這個行業也要飽和了。此時應該轉向更深入的方向,或者乾脆換一個。

深度學習還有很多問題沒有解決,在除計算機視覺機器翻譯語音識別之外,更多領域也還沒有發光發熱。這是未來可能的方向。

三十年河東三十年河西,要在人工智慧行業長盛不衰,還是要苦練基本功,不要隨波逐流。

不過還有一句話怎麼說來著?滄海橫流,方顯英雄本色。做什麼都要踏實做。


正如 @王晉東不在家 所提到的,這一輪計算機視覺的熱潮與深度學習的熱潮是相輔相成的。這一輪人工智慧-深度學習的熱潮,其起點就是2012年Hinton團隊利用CNN在ImageNet上對圖像實現了精確的識別。另一方面,深度學習的方法也越來越在計算機視覺領域得到廣泛運用,近年的CVPR上很大一部分論文都是基於深度學習的方法。而在我們身邊,也有很多將計算機視覺和機器學習/深度學習結合起來的應用,例如刷臉支付、無人駕駛、無人機航拍、手術機器人等等。

深度卷積生成對抗網路DCGAN,https://arxiv.org/pdf/1511.06434.pdf

當然,目前大量研究者和從業者湧入CV,也確實帶來了CV界過熱的問題。我在另一個回答下曾經談過AI過熱的問題,其實也適用於這兒。總的來說,越是站在浪潮之巔,越要保持冷靜清醒。CV領域同樣需要理論應用兩開花。

AI 是否正在變成實驗科學??

www.zhihu.com圖標

特別對於CV需要指出的三點,第一,傳統演算法不可偏廢。例如,儘管基於深度學習的特徵提取方法取得了很大的成功,但傳統的特徵提取演算法,例如SIFT, SURF, LBP等等,依然不能忽視。再例如,SVM, KNN等等經典的機器學習演算法在CV中的應用也不可忽視。

傳統的計算機視覺和機器學習演算法依然在很多場景下有用武之地,並且,這些演算法不僅在工程上有穩健的性能,而且相比於深度學習演算法,在數學上也有更清晰的解釋。因此,深入理解這些經典演算法的思想,對於我們改進既有演算法和提出新演算法,也是很有啟發性的。

第二,重視數學、重視編程。我們需要有一批不滿足於import cv2, import torch, import torchvision,不滿足於機械調參,不滿足於堆砌網路結構的研究者,能夠提出一套嚴密的指導性的理論,改善目前深度學習中以試湊調參為主來達到目標的訓練方式。我們需要思考能否在底層實現上做出改進或提出新的演算法,而非簡單地將既有演算法排列組合。

第三,推動CV真正落地。我們知道,在人類的各種感官中,視覺帶給人的信息最多,其認知機制也最複雜,因此,計算機視覺始終是人工智慧的一個重要組成部分,有大量的工作可以做。許多行業都積累了大量的圖像信息,都有用計算機代替人去「看」的剛需。我們應當思考如何讓計算機視覺更好地與各行各業相結合,真正助力經濟社會發展,也使得我們的生活更加便捷。


計算機視覺下面有很多任務,大部分有效的框架也已經開源。據我了解,其他專業的人都想轉向計算機視覺,在我身邊,剛入門一個領域兩個月就開始投頂會的人也不少(中不中不好說)。我也有些困惑,為什麼大家一兩個月就能做出工作,寫出論文呢,我覺得兩個月的時間用來了解相關領域,做實驗的時間都不夠。看到的一些現象是:先看幾篇論文,在網上找開源代碼,跑通,基於代碼找幾個創新點,跑通以後看能提升幾個點,寫論文。所以才會有題主所說的各大頂會投稿數量飛漲吧。

不過還看到的現象是:身邊有很多努力做研究的學生,是真正的沉澱下來思考這個領域的痛點,希望能夠做出一些改進。

-----原回答-----

我感jio還是要認真踏實地學好計算機視覺的相關知識,大牛就不討論了,各種頂會隨便發。就說說我這等普通人,學習一個新領域的知識一定要有良好的基礎啊,比如至少懂如何搭建一個網路,訓練loss函數,反向傳播,BN等等。前幾天有人想跑我的Github上一個代碼,基本上是手把手教怎麼運行,最後得到了mAP。他問我mAP是什麼


全民計算機視覺,大概因為視覺比較好入吧,比如看點書、視頻等資料,然後跑跑demo、import點庫、git clone一下、調調參。但是計算機視覺還有很多路要走,至少還有一堆問題,學術界和工業界的不一致,很多工作放到真實環境中並不work了;很多人並不知道他們所做工作的來龍去脈,甚至只知道這個問題的數據來自某某某數據集,至於為什麼要這麼做並不知道,然後也中了CVPR,對自己做的問題沒有深刻的理解。

要想有好的發展,還是要憑藉真才實學啊,打好基礎,讀些paper,我記得國內某視覺獨角獸的人說她做問題之前看了300篇相關論文,這樣才能對自己的任務有很深刻的理解,才能做出solid work。至於剩下的,如果有興趣,堅守就好了,hinton堅守深度學習好幾十年呢。


全民,即代表著門檻的降低,既有知識層面的,也有工具層面的。原因我認為有如下:

1)知識開源化。無論是傳統方法還是深度學習,開源代碼和工具大大縮短了開發周期,顯著降低了門檻。以前因為周期長(從特徵設計到分類器篩選),需要在領域內多年的積累才能篩選或收斂到一個高概率成功的方向,使得團隊的積累成為了門檻;而如今,藉助於開源平台,可以通過短平快的試錯方式,以低成本短時間收斂到一個可能的方向,個人或一個年輕團隊即可以進行快速迭代。

在我面試中,很多年輕候選人的簡歷中寫著「熟悉」各種視覺特徵或方法,但深究細節,能講明白的不多,大多僅僅是跑通開源代碼。知其然,不知其所以然。所以進入智加的實習生,我分配的第一個項目都不是深度學習的,而是基於傳統視覺或模式識別方法進行,為的就是進一步夯實他們的基礎,學會從系統層面了解視覺演算法的拆解和組合,而不要深陷在某種方法上。

2)工具模塊化。各種深度學習平台和編程語言快速迭代,使得編程門檻降低。通過和1)的配合,使得這一現象更加明顯。

依然是那句我常對學生和實習生說的老話。對知識,要深究細節,了解過去,認識現在,預見未來;對工具,掌握同類型的一二即可。

切忌,「把對工具的掌握,當做對知識的掌握」。

在未來某年,回頭看當下瘋長的投稿量,那些大浪淘沙留下的才是真正的乾貨。而我們,都是這個大浪中的一員。


推薦閱讀:
相关文章