之前看了一篇2018年的問題和大神的回復。我想問問2019年目標檢測方向還有哪些可以做的呢?我對於檢測多尺度目標感興趣。
2017年是頂峰,2018年呈現飽和趨勢,2019年基本宣告了這個時代的落幕。
One stage這條線:
1. FCOS[Densebox]證明了anchor概念的冗餘,奧卡姆剃刀原理:如無必要,勿增實體。不過留下一個問題,正負樣本的定義。
2. CenterNet(Object as point那篇)和RepPoint直接一個物體一個正樣本,簡單粗暴。
3. 由於過於簡單粗暴,FreeAnchor就文明很多,用Recall和Precision監督樣本定義,引申一下anchor free方法也可以類似搞。
至此,image,backbone,head出分類和回歸,指標直接監督訓練。
Two stage這條線:
4. RepPoint和AlignDet證明了RoIPooling/RoIAlign等效於Deformable conv
至此,backbone和head也可以看成一體了。
還有哪塊兒可以優化?backbone?FPN?
5. NAS啊,DetNAS,FPNNAS。在這兒給TridentNet點個贊,我念叨FPN大物體掉點,小物體漲點,整體漲點很久了,TridentNet解決了這個問題,大小物體都漲點(雖然Res4並行三支計算量漲的有點兒凶,但ResNet比AlexNet也漲計算量啊,23333)
兄弟你看完這個什麼感覺?是不是感覺如果你還在這個框架下,難受的一逼?可以說是,也可以說不是。因為,還有這麼幾個方向:
(1)改Conv,Conv不一定最適合object detection這個任務,它對旋轉和尺寸變化不魯棒
(2)attention走起來,我不是說加幾層網路然後乘起來那種。。。是不是可以試試shape-bias,part-aware,relation of part and whole, 懟遮擋,視角,光照?
(3)改訓練方法,gradient-based BP演算法一定好嗎?搞個N(N=0,1,2?)階的?
如果我理解沒錯,LeCun,Bengio,Hinton就是做這些拿的圖靈獎。我不是在說兄弟你不可能超越他們,只是想表達:如果真的選擇做純目標檢測,必須去啃硬骨頭了。
當然,CV+ML很大:keypoint-based detection,video,量化,剪枝,無監督,半監督,few-shot,transfer learning,domain adaptation等等和detection的結合,還有3D,SLAM等等。
都2019了還做目標檢測
更多在於工程優化。
Ps:https://zhuanlan.zhihu.com/p/70523190
說幾個我覺得應該能做的。視頻目標檢測。。多視角目標檢測。。3d檢測。。
再加兩個,和lidar融合,和rgbd融合。。
From: Googlearxiv; 編譯: T.R
公眾號:將門創投(thejiangmen)
最近谷歌在目標檢測領域有了新的技術突破,提出了基於神經網路搜索的目標檢測新型架構,可以同時適應圖像識別與定位任務,整理了一下相關內容,希望給題主一點啟發。
在圖像任務中卷積網路通常將輸入圖像編碼成一系列中間特徵來捕捉圖像局部和全局的語意信息,特徵的空間解析度也會隨著層數的增加而減小。然而,這種以犧牲空間解析度為代價的模型結構對於需要多尺度特徵的識別任務來說並不能獲取非常有效的特徵,尤其像是目標檢測和語意分割任務中,類別識別和目標定位同樣重要。像FCN和DeepLab等工作都提出了多尺度的編解碼器架構來解決這一問題,利用犧牲尺度的模型來作為編碼器,同時利用解碼器來恢復空間信息。
雖然這種架構成功地提升了識別和定位任務的性能,但使用了降採樣的編碼器依舊損失了空間信息,需要解碼器進行恢復,但這種恢復無法保留足夠的原始空間信息。人們不禁想到,如果可以設計出一種主幹模型避免空間信息的損失,是不是就能天然地同時適應於圖像識別與定位任務了?