之前看了一篇2018年的問題和大神的回復。我想問問2019年目標檢測方向還有哪些可以做的呢?我對於檢測多尺度目標感興趣。


2017年是頂峰,2018年呈現飽和趨勢,2019年基本宣告了這個時代的落幕。

One stage這條線:

1. FCOS[Densebox]證明了anchor概念的冗餘,奧卡姆剃刀原理:如無必要,勿增實體。不過留下一個問題,正負樣本的定義。

2. CenterNet(Object as point那篇)和RepPoint直接一個物體一個正樣本,簡單粗暴。

3. 由於過於簡單粗暴,FreeAnchor就文明很多,用Recall和Precision監督樣本定義,引申一下anchor free方法也可以類似搞。

至此,image,backbone,head出分類和回歸,指標直接監督訓練。

Two stage這條線:

4. RepPoint和AlignDet證明了RoIPooling/RoIAlign等效於Deformable conv

至此,backbone和head也可以看成一體了。

還有哪塊兒可以優化?backbone?FPN?

5. NAS啊,DetNAS,FPNNAS。在這兒給TridentNet點個贊,我念叨FPN大物體掉點,小物體漲點,整體漲點很久了,TridentNet解決了這個問題,大小物體都漲點(雖然Res4並行三支計算量漲的有點兒凶,但ResNet比AlexNet也漲計算量啊,23333)

兄弟你看完這個什麼感覺?是不是感覺如果你還在這個框架下,難受的一逼?可以說是,也可以說不是。因為,還有這麼幾個方向:

(1)改Conv,Conv不一定最適合object detection這個任務,它對旋轉和尺寸變化不魯棒

(2)attention走起來,我不是說加幾層網路然後乘起來那種。。。是不是可以試試shape-bias,part-aware,relation of part and whole, 懟遮擋,視角,光照?

(3)改訓練方法,gradient-based BP演算法一定好嗎?搞個N(N=0,1,2?)階的?

如果我理解沒錯,LeCun,Bengio,Hinton就是做這些拿的圖靈獎。我不是在說兄弟你不可能超越他們,只是想表達:如果真的選擇做純目標檢測,必須去啃硬骨頭了。

當然,CV+ML很大:keypoint-based detection,video,量化,剪枝,無監督,半監督,few-shot,transfer learning,domain adaptation等等和detection的結合,還有3D,SLAM等等。


都2019了還做目標檢測


更多在於工程優化。

Ps:https://zhuanlan.zhihu.com/p/70523190


說幾個我覺得應該能做的。視頻目標檢測。。多視角目標檢測。。3d檢測。。

再加兩個,和lidar融合,和rgbd融合。。


From: Googlearxiv; 編譯: T.R

公眾號:將門創投(thejiangmen)

最近谷歌在目標檢測領域有了新的技術突破,提出了基於神經網路搜索的目標檢測新型架構,可以同時適應圖像識別與定位任務,整理了一下相關內容,希望給題主一點啟發。

在圖像任務中卷積網路通常將輸入圖像編碼成一系列中間特徵來捕捉圖像局部和全局的語意信息,特徵的空間解析度也會隨著層數的增加而減小。然而,這種以犧牲空間解析度為代價的模型結構對於需要多尺度特徵的識別任務來說並不能獲取非常有效的特徵,尤其像是目標檢測和語意分割任務中,類別識別和目標定位同樣重要。像FCN和DeepLab等工作都提出了多尺度的編解碼器架構來解決這一問題,利用犧牲尺度的模型來作為編碼器,同時利用解碼器來恢復空間信息。

雖然這種架構成功地提升了識別和定位任務的性能,但使用了降採樣的編碼器依舊損失了空間信息,需要解碼器進行恢復,但這種恢復無法保留足夠的原始空間信息。人們不禁想到,如果可以設計出一種主幹模型避免空間信息的損失,是不是就能天然地同時適應於圖像識別與定位任務了?

幾種不同的尺度輪換架構

在這種思想的指導下,研究人員在今年的CVPR論文SpineNet中提出了一種名為尺度輪換模型(scale-permuted)的元結構,從兩個方面提升了主幹結構的性能。中間特徵圖的空間解析度應該可以在任意層提升或者減小,以便在網路加深時保持空間信息的有效性;其次特徵圖間的連接應該跨越特徵尺度來促進多尺度信息的融合。在新架構下,研究人員利用了神經架構搜索(Neural Architecture Search,NAS)方法在新的搜索空間中尋找有效的尺度輪換模型。結果表明這種模型在多尺度視覺任務中超過了標準的尺度縮減主幹網路,在多個基準上實現了優異性能指標。

左圖顯示了尺度縮減結構,右圖顯示了尺度置換主幹網路。每個矩形表示了一個模塊,顏色和尺寸顯示了空間解析度和特徵維度的變化,箭頭表示了不同層間的連接。

一、SpineNet的架構設計

為了高效地設計SpingNet的架構,避免耗時的手工設計、參數搜索和設計,研究人員設計了NAS來優化模型結構。主幹模型在COCO數據集上進行了訓練,同時強化了識別和定位任務的需求。在架構搜索階段,研究人員主要在三個方面進行了處理:

  • 尺度輪換:由於需要從已有的模塊進行構建,網路模塊的順序十分重要。在搜索中通過重整中間特徵和輸出模塊的序列關係來重新定義了尺度輪換空間。
  • 交叉尺度連接:為每個模塊定義了兩個輸出連接,可以來自於任意的低層模塊或主幹網路模塊。
  • 模塊自適應(可選):模塊可以自適應地調節其尺度和種類

從尺度縮減到尺度輪換的架構搜索過程對比

NAS搜索中使用了ResNet-50 主幹網路來作為搜索種子,首先學習了尺度輪換和交叉連接的方式。研究人員使用了基於遞歸神經網路的控制器來實現架構搜索,這是目前最適合於尺度輪換的搜索架構。為了加速搜索過程,研究人員還設計了SpineNet代理,將SpineNet- 49的特徵維度縮減因子設置為0.25,設置重採樣因子α為0.25,並在bbox檢測和分類中使用了64維的特徵。為了防止搜索空間的指數增加,研究人員限制了中間架構僅僅允許最後五個block搜索,並在在現有block中進行檢索。針對每個樣本,代理訓練512解析度的圖像5個epoch,同時驗證集上的AP被作為獎勵來優化結構。實際中使用了100個TPU來運行,來搜索最好的結構。

所有備選架構的計算量都幾乎相同,因為在這一過程中僅僅輪換了特徵模塊的順序。最終學習到的尺度輪換模型在目標檢測任務中比ResNet-50-FPN高了2.9%的AP。如果添加搜索選項來適應模塊的尺度和種類(包括殘差模塊或者瓶頸模塊)還能夠減少10%的浮點運算提升效率。下圖顯示了標準尺寸和mobile尺寸的SpingNet性能。

研究人員將得到的49層尺度輪換主幹架構命名為SpineNet-49,如果利用重複模塊疊加和維度拓展可以方便地構建出SpineNet-96/143/190等架構。

下圖展示了RestNet-50-FPNSpineNet-49的對比情況。

ResNet 主幹 (左) 和 基於NAS搜索得到的SpineNet 主幹 (右) 的比較。

二、性能

通過與ResNet-FPN的比較展示了新架構在性能上的大幅度提升。在使用相同模塊的情況下,SpineNet比ResNet-FPN提升了3%的AP,同時還減少了10-20%的浮點計算。值得一提的是最大的SpineNet-190模型在COCO實現了52.1%的AP,在沒有使用多尺度測試的情況下單模型結果超過了先前的檢測器架構。SpineNet同時在分類任務基準iNaturalist細粒度數據集上取得了5%的top-1精度提升。

SpineNet模型和ResNet-FPN模型在bbox檢測上的性能比較。

SpineNet和ResNet模型在iNaturalist細粒度圖像分類任務上的性能比較。

同時在研究中發現,聯合優化尺度輪換和尺度交叉連接比在固定尺度下優化交叉連接效果更好。交叉連接在不同尺度特徵融合過程中扮演著重要的角色。研究人員通過選擇性圖破壞鏈接來探索交叉連接的重要性,包括移除短程連接、移除長程連接、同時移除長短連接並將其連接到先前的序列模塊上。下表顯示了性能衰減,發現短程連接並不能有效處理頻率解析度的演變。

三、結論和展望

研究人員認為尺度縮減模型無法同時有效地處理識別和定位任務,提出的尺度輪換模型作為一種新的架構解決了這一問題。同時還通過神經架構搜索的方式來提升這一架構的性能,並在目標檢測和分類中得到了顯著的性能提升。這一獨特的模型架構將為各種視覺任務提供更多的選擇和性能提升。

如果想要了解更多詳細信息,請參考論文和代碼:paper:https://arxiv.org/pdf/1912.05027.pdf code:https://github.com/tensorflow/tpu/tree/master/models/official/detection

pic ref:

https://cdn.dribbble.com/users/393446/screenshots/10070945/toggles_4x.png https://cdn.dribbble.com/users/398490/screenshots/3665764/cat-animated_still_2x.gif https://cdn.dribbble.com/users/2245614/screenshots/9177516/lottie_2_still_2x.gif

@將門創投· 讓創新獲得認可

如果喜歡,別忘了贊同、關注、分享三連哦!筆芯?


推薦閱讀:
相关文章