如題,CVPR 2020 Oral結果公布了,今年的oral比例和總數有多少?有哪些有意思的paper呢?不知道會不會因為新冠疫情而取消開會


po一篇自己團隊的oral:BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition

BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition?

www.weixiushen.com

這個工作主要關注視覺識別任務中普遍存在的「長尾分布」問題(long-tailed distribution)。


機器學習及其在視覺識別的應用中,我們處理的標準數據通常都有一個共同的基本假設,即該數據集各類別對應的樣本數量通常是近似服從均勻分布的,即類別平衡。但現實生活中的數據往往呈現較極端的不平衡現象,如我們日常生活經常看到雲朵、狗等物體,卻鮮見概念車甚至傳說中的「外星生物」,這樣的自然規律使得真實數據的分布通常呈現出「長尾分布「(long-tailed distribution)的形態,如下圖所示。

可以看到常見(但少量)的物體類別在視覺識別的圖像中出現的頻次佔主導地位,而罕見(卻大量)的物體類別出現的頻次佔比微乎其微。在機器學習和視覺識別的實際應用過程中,長尾分布在某種程度上可以說是比正態分布更加廣泛存在的一種自然分布,現實中主要表現在少量個體做出大量貢獻(少量類別的樣本數佔據大量樣本比例),人們經常提到的「二八定律」(Pareto法則)就是長尾分布的形象概括。

因長尾分布數據的極度不平衡,其給機器學習和視覺識別帶來了巨大挑戰。類別的極度不平衡導致模型學習非常容易被「頭部」類別(head classes)主導而產生過擬合,同時模型對於「尾部」數據(tail classes)的建模能力極其有限,從而在模型測試階段表現出對長尾數據(尤其「尾部」數據)預測精度不理想的缺陷。特別是在藉助深度學習模型進行的視覺識別應用中,尾部數據的數量缺失還使得深度模型的訓練難以充分進行,導致特徵學習很難達到理想程度,進而影響整個深度模型的泛化表現。此外,深度模型基於batch的訓練特性帶來的模型「遺忘」問題在長尾數據分布情況下尤為突出,愈加影響了特徵學習的整體質量。

在深度學習中,特徵學習和分類器學習通常被耦合在一起進行端到端的模型訓練。但在長尾分布數據的極度不平衡因素的影響下,根據以上分析,特徵學習和分類器學習的效果均會受到不同程度干擾。在我們的這篇CVPR 2020 Oral工作中,我們首次揭示了重採樣(re-sampling)和重權重法(re-weighting)這類類別重平衡(class re-balancing)的方法其奏效之原因實際在於顯著提升了深度網路的分類器學習模塊的性能。於此同時,我們還出乎意料地發現,這類重平衡方法由於刻意改變樣本數目(重採樣法)或刻意扭曲數據分布(重權重法),它們在一定程度上會損害深度網路學習到的深度特徵的表示能力。基於該發現,我們提出了一個雙分支神經網路結構用來同時兼顧特徵學習和分類器學習,將深度模型的這兩個重要模塊進行解耦,從而保證兩個模塊互不影響,共同達到優異的收斂狀態,協同促進深度網路在長尾數據分布上的泛化性能。

值得一提的是,BBN方法還是我們奪得2019屆iNaturalist旗艦賽事世界冠軍的solution,目前代碼已開源,歡迎大家試用和指正!

https://github.com/Megvii-Nanjing/BBN?

github.com


一不小心中了oral 運氣不錯


分享一篇關於few shot learning的paper。模型很簡單,FCN提取feature, EMD作為距離函數,在四個數據集上都大幅超越SOTA,arxiv鏈接在下面, 開源代碼鏈接: DeepEMD

DeepEMD: Few-Shot Image Classification with Differentiable Earth Movers Distance and Structured Classifiers?

arxiv.org

順便貼幾張有意思的配圖


借這個話題為我們的paper打個廣告:RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds

我們提出了一種針對大規模三維點雲場景的輕量級、高效點雲語義分割演算法RandLA-Net。通過對現有的採樣策略進行全面綜合的分析,我們採用簡單高效的隨機採樣來顯著地減少計算量以及內存消耗,並且引入了局部特徵聚合模塊持續地增大每個點有效的感受野,保留大多數有效的信息。在Semantic3D,S3DIS以及SemanticKITTI等多個數據集上都取得了不錯的效果,而且相比於現有的處理大規模點雲的演算法SPG在速度上有近200倍的提升。

詳情可以看我們寫的Blog:

Qingyong Hu:[CVPR 2020 Oral] RandLA-Net:大場景三維點雲語義分割新框架(已開源)?

zhuanlan.zhihu.com圖標

Demo:

代碼也已經開源:

https://github.com/QingyongHu/RandLA-Net?

github.com


不請自來,再安利一下AdderNet,最新版的AdderNet代碼如下:

https://github.com/huawei-noah/AdderNet?

github.com

其實這確實是很早以前的一個idea了,以前我們做很多模型壓縮的研究,通過去掉一些這樣那樣的冗餘,通過對模型的架構進行五花八門的精簡,對卷積核也有各種各樣的設計,但是從更底層來說我們希望有一個更簡單的計算方式,那麼motivation就從下面這張圖來:

在MNIST數據集上的特徵可視化結果,不同的顏色代表不同類別的圖像在網路中的特徵。

也就是說如果我們把卷積計算看作成為一種距離度量的方式,我們用加法同樣可以把圖像分類這個任務做好。相較於BNN,雖然使用更快的XNOR計算,但是其準確率遠低於CNN和AdderNet。ImageNet實驗結果如下:

表1:ImageNet分類結果

詳細的理論和實驗結果見專欄文章啦:

華為開源加法神經網路 | CVPR 2020 Oral?

zhuanlan.zhihu.com圖標
推薦閱讀:
相关文章