有点激动,投了11篇(整个小组大家辛辛苦苦攒了大半年的工作)。

list一放就去挨个查了一下中了7篇,感谢大家的努力,感谢同事们的支持!

我先把题目发一下:

  1. GhostNet: More Features from Cheap Operations(超越Mobilenet v3的架构)
  2. AdderNet: Do We Really Need Multiplications in Deep Learning? (加法神经网路)
  3. Frequency Domain Compact 3D Convolutional Neural Networks (3dCNN压缩)
  4. A Semi-Supervised Assessor of Neural Architectures (神经网路精度预测器 NAS)
  5. Hit-Detector: Hierarchical Trinity Architecture Search for Object Detection (NAS 检测,这个我提一句,这个是backbone-neck-head一起搜索, 三位一体哈哈)
  6. CARS: Contunuous Evolution for Efficient Neural Architecture Search (连续进化的NAS,高效,具备可微和进化的多重优势,且能输出帕累托前研)
  7. On Positive-Unlabeled Classification in GAN (PU+GAN,这个题目倒是很直观哈哈)

再讲一下得分情况,供大家参考(我就不一一对应了),11篇稿子分数分别为:

123,124,224,234,234,234,234,234,2334,144,334

可以看到大多数时候,我们的稿子都是borderline。接下来我们看他们的最终结果(2.27更新):

122224,234,222224234,224,444,2323,244,224

加粗的是中了的,神不神奇,意不意外?(上下对比可以看到分数的变动,有的全部改成2,也有全部改成4,ACs都给了详细的意见。)334中了,224没中,当然最后的分数我会在cmt系统更新后再刷新,期待会有oral~


那我们先自荐几个值得关注的稿子:

  1. GhostNet: More Features from Cheap Operations,我们利用了一个很巧妙的结构,搭建了超越了MobileNet v3的轻量级神经网路,论文地址:

https://arxiv.org/pdf/1911.11907?

arxiv.org

这个模型我们也放出来了,大家可以跑跑看,在ARM CPU上的表现是很惊人的:

https://github.com/iamhankai/ghostnet?

github.com

We beat other SOTA lightweight CNNs such as MobileNetV3 and FBNet.

2. AdderNet: Do We Really Need Multiplications in Deep Learning? 这个工作之前引起了大家的关注,这个确实挺好玩的,是我几年前的一个idea,几经辗转找到了靠谱的实现方式和训练手段,在大规模神经网路和数据集上取得了非常好的表现,这个论文是可以给大家先睹为快的:

https://arxiv.org/pdf/1912.13200?

arxiv.org

下面的链接是之前Reddit热议的帖子,对我们未来的研究方向也有了很大的启发。

https://www.reddit.com/r/MachineLearning/comments/ekw2s1/r_addernet_do_we_really_need_multiplications_in/?

www.reddit.com

那这个东西我知道大家可能更关心他的开源,因为这个需要审批,我们已经申请了一个多月了,一周之内就可以下来,大家可以关注另外一个帖子,等开源代码放出来我就去回答(有小伙伴cue我很久了。。。):

如何评价Reddit热议的论文AdderNet??

www.zhihu.com图标

开源代码(3.16更新,Addernet喜提Oral):

https://github.com/huawei-noah/AdderNet?

github.com

3. CARS: Contunuous Evolution for Efficient Neural Architecture Search:

https://arxiv.org/pdf/1909.04977?

arxiv.org

开源代码(很快会上传):

https://github.com/huawei-noah/CARS?

github.com

其他论文还没有挂arxiv和开源,我们会尽快弄起来!

最后,欢迎大家多关注诺亚方舟实验室!谢谢大家支持!


推荐一篇来自腾讯优图实验室的文章,该文章已经被CVPR2020录取。我和我的高中同班同学为共同一作(跨越多年的友谊,哈哈)。

论文链接:Filter Grafting for Deep Neural Networks

代码链接:https://github.com/fxmeng/filter-grafting

我们知道训练好的神经网路存在很多无效的filter(l1 norm很小),而filter pruning的技术就是用来移除这些无效(不重要)的filter来加速网路的前向推理能力。我们思考,假如不对这些filter进行移除操作,而是重新激活这些filter是不是会增加网路的表达能力从而提升模型性能呢?于是我们研究了激活这些filter的多种方式。在所有的尝试中,发现引入外部信息来激活filter可以达到最佳的效果。我们把这个激活方式叫做filter grafting(滤波器嫁接)。简单来说,就是把其他网路有效的filter的信息(weight)嫁接到self-network无效的filter上。多个网路互相彼此嫁接来共同促进进步,如图所示:

值得注意的是嫁接并不改变网路结构,我们只是把其他网路有效filter的weight按照一定的比例加到self-network上。比例由我们设计的一个adaptive function决定。测试的时候只用嫁接后的一个network进行测试。两个相同结构的网路彼此嫁接的结果如下:

我们同时发现嫁接时增加互助网路的数量可以进一步提升模型性能:

我们对嫁接后的网路进行实验,发现嫁接确实可以减少无效filter的数量:

具体的实现细节可以在文章和代码里进行了解。我们希望grafting可以使更多研究者关注到神经网路filter-specific training的设计上。其实在这篇文章投稿后我们又观察到grafting技术和一个learning子领域有著很有趣的联系。我们将相关的实验和分析已经整理成paper投稿到另一个会议上,希望好运。特别感谢文章里的作者:珂珂,大师,纪老师等对文章的修改及帮助。希望疫情快点结束,在家快憋坏了。。。

最后附个人cv,欢迎小伙伴们来上海优图实习鸭~


SGAS (CVPR 2020)

更新:

也欢迎大家关注下我们和Intel ISL合作的工作SGAS(SGAS: Sequential Greedy Architecture Search),通过贪心的搜索方式减轻了NAS中模型排名在搜索和最后评估不一致的问题。更优更快的网路结构搜索演算法,另外同时支持CNN和GCN的搜索。代码已开源,想在图像,点云,生物图数据上做网路结构搜索的同学都可以试一试。有问题欢迎联系我和 @登高居士 。

项目:https://www.deepgcns.org/auto/sgas

Paper: https://arxiv.org/abs/1912.00195

Github: https://github.com/lightaime/sgas

4.15更新:

第一次Rebuttal成功,没有太多的总结性经验,就把自己的Rebuttal贴出来,很多情况不一定适用,仅供大家参考。

(为了具有一般性,我将一些论文专用的术语去敏了,R1,R2,R3分别代表审稿人123)

We thank the reviewers for their valuable feedback, especially the comments on our novelty, extending XXX to XXX, and reporting results across multiple runs. We believe that reporting results in such a way is crucial for evaluating proposed search methods.

(尽然初始review分不高,但审稿人有肯定论文的点,第一句先重复下他们肯定的地方)

Common Response Hyper-parameters New ablation studies are not allowed (PAMI-TC policy). We add a discussion to explain choices of parameters here. More ablation studies will be added to the final version. Three parameters are introduced: (1) XXX (2) XXX (3) XXX

(1) Since XXX, choosing XXX leads to stable results. We simply set the XXX to X. (2) For XXX experiments, the XXX is chosen to be X. Since XXX. For a fair comparison to our baseline XXX, we want the XXX to last up to X, which is the length of X. For XXX architectures, in order to XXX, we XXX. Thus, XXX. Similarly, to keep XXX, we set the XXX to be X.

(3) The XXX is always set as X, which is simply chosen to be slightly smaller than the X.

(如果论文引入了超参数,审稿人总会问超参是如何选择的,这里在Common Response给出了参数选择的理由)

R1 Code availability We follow the best practices for scientific research on XXX suggested in XXX, i.e. we will release all the code (search and train), the pre-trained models, and all details needed to reproduce our results once the paper is published. We hope to benefit both XXX and XXX research communities.

(R1给了Boardline分,主要问了参数选择和代码是否会公布的问题,这里承诺论文接收后代码会公布)

R2) Incomplete related work We will add this paper.

(为了节省空间,对于审稿人建议引用的论文,我们简单回复)

R2) Hand-wavy claim We strongly disagree with the reviewer on this point for the following reasons.

(R2给了Strong Reject,主要对质疑我们论文的出发点成立不成立。这里分三点回答,第一点,重复下论文里的Claim;第二点,引用论文中的实验来说明Claim的成立;第三点,通过引用最近的相关工作来进一步佐证它的成立;第四点,论证所提出方法的必要性)

(i) We did not make this claim for XXX specifically. To clarify, we claim that XXX is a universal problem in XXX methods that need to XXX or use XXX (see LXXX, LXXX).

(ii) In the paper, we show that XXX may end up XXX (see Figure X). This empirically validates the XXX problem.(iii) Our claim is further validated by other work, e.g. the two recent XXX papers cite{XXX, XXX}, which studied XXX. In fact, experiments in cite{XXX} show that XXX methods with a XXX mechanism result in XXX, and perform better when XXX is not used (we also mentioned this in LXXX). In cite{XXX}, the XXX is found to degrade the XXX leading to worse performance. (iv) The reviewer suggests that XXX to resolve these issues. This option is most often not computationally viable and the reason why XXX are used instead. Even if we use XXX directly, the XXX in XXX remains an issue that causes XXX. Therefore, our claim is a widely accepted open problem. In this paper, we propose an effective solution to this problem.

R2) XXX metric The reviewer suggests using XXX as the metric to XXX is incorrect and recommends to use XXX metric.

(审稿人这里质疑一个评价指标的使用正确性,建议了另外一个指标,我们先说该指标是常用的,再给出即使用了所建议的指标,论文结论不变)

(i) Using the XXX metric on XXX to evaluate XXX methods has been used before (e.g. in cite{XXX,XXX} mentioned above).

(ii) We find that there is minimal difference in using XXX or XXX in the XXX metric in our experiments. In fact, if we use XXX rather than XXX to measure the XXX for XXX, the XXX changes minorly from X to X. More importantly, our method still outperforms X by the same amount.

Therefore, we prefer to use X, since it is commonly used and better aligns with the final goal of learning.

R2) Not an impressive result Unlike previous works, the average result we report is obtained through multiple runs. Although this tends to reduce the overall performance gain, we believe this is a better scientific way to report results (it was appreciated by the other reviewers). It is worth mentioning that the best performance increase we have on XXX is X against our baseline XXX). As for the introduced hyper-parameters, please refer to the common response. We do not tweak them for each dataset. Besides, other SOTA methods also introduce extra hyper-parameters. XXX introduces at least X extra hyper-parameters (X, X, X, X).

(审稿人这里说,我们引入了额外超参,但结果不是很impressive,我们回答因为结果是多次运行的平均,另外其他被接收的相关工作也引入了很多超参)

Based on the clarification above, we do not see any major point to justify this strong reject decision.

(最后总结一下对R2的回复)

R3 More ablation studies Thanks for your advice. We will add the ablation. XXX and XXX are combined into XXX, since the algorithm will be agnostic to XXX, if we only consider XXX. In this case, XXX be selected with a sub-optimal operation at early epochs. On the other hand, we need to XXX for a fair comparison with XXX. Only considering XXX may fail to XXX, since XXX may XXX.

(R3给了Weak Accept,主要想看更多的Ablation,这里承诺会给出实验和做适当的解释)

————————————————————————————————————

更新:Meta reviews出了,从235到223。非常感谢审稿人们在最后讨论阶段的负责工作!第一次和审稿人冰释前嫌 :-)

图出处 @魏秀参 ,感谢大神分享的rebuttal经验。

————

逆天改命 235中了 深深感受到了rebuttal的重要性 有空分享下rebuttal经验


恭喜团队四篇论文被cvpr2020接收。尤其可贺的是成功地把我近期力推的AET用在了图模型和GAN网路的无监督自训练上,取得了突破性的进展。至此,我们的AET (Auto-Encoding Transformations) 已经形成了一个完整系列的系统工作,从图像分类、物体检测、图模型、GAN网路,并有了从资讯理论到李代数的一整套解释和理论。之后我们会开发一套完整的工具包方便大家使用和研究。

下面主要介绍下AET模型在图模型和GAN网路无监督训练上的突破。

图模型:GraphTER: Unsupervised learning of Graph Transformation Equivariant Representations via Auto-Encoding Node-wise Transformations [pdf]

这个方法是通过对Graph 中node进行全局或局部变换与扰动,并通过对node-wise transformations进行预测来实现GNN网路的self-training。学习得到的特征既可以是node-wise feature,也可以是对整个graph的feature。这种方法的思想是好的graph特征应当可以很好地对graph地链接与拓扑结构进行编码,进而能够从中提取出作用在graph拓扑结构上的各种变换。虽然我们在这篇文章中是以3D点云相应地graph为研究对象,但所用的自监督graph网路训练方法具有通用性,可以用在很多其他的graph 任务上。

齐国君:【GraphTER】图神经网路变换无监督共变特征学习?

zhuanlan.zhihu.com图标

GAN模型: Transformation GAN for unsupervised Image Synthesis and Representation Learning

这篇论文中,我们把AET 思想用来训练GAN模型。这里用AET对应的loss作为正则化项来更好的训练GAN中的discriminator。众所周知的是,GAN 中的discriminator训练极容易过拟合,而加入各种新的变换后,discriminator 网路可以更好的感知到在不同的变换下,真实样本和虚假样本之间的区别,进而可以更好的训练出更好的generator网路。传统的数据增强需要假设变换后的样本仍然具有高度的真实性。但大强度的变换往往会引入各种distortion,使得一个真实的图像变得扭曲而不再真实。通过AET loss,我们不再直接把变换后的图像作为正例来训练discriminator,而仅仅通过预测transformation本身来对discrminator的训练进行正则化。这种方法,可以使用更大范围地变换,进而获得更好地性能。

附上AET 的原创论文:AET vs. AED: Unsupervised Representation Learning by Auto-Encoding Transformations rather than Data [pdf]

以及期刊版本: Learning Generalized Transformation Equivariant Representations via Autoencoding Transformations [pdf] (这个版本包含更多结果)

有希望了解更多AET内容的同学,可以参看我另外一个回答

如何评价Kaiming He的Momentum Contrast for Unsupervised??

www.zhihu.com图标

我同时计划用一个系列八篇文章来比较系统的介绍下以AET为代表的研究变换对称性的模型从无监督、半监督到全监督各个层面所起到的重要作用,有兴趣的同学可以收藏和专注下这个系列,目前刚更新了第一期。

齐国君:人工智慧中的对称性:从变换到对称的历史 (一)序言:什么是对称性??

zhuanlan.zhihu.com图标

简单来说,AET 是通过对变换本身进行自编码实现自监督学习(self-supervised)的一种通用方法和架构。在最近一些无监督或自监督的方法中,我们注意到各种变换(transformations)在其中起到的核心作用,这其中包括了Hinton自己公布的新方法SimpleCLR。基于contrastive loss的方法其实还是在间接的使用transformation来获得单个样本的多个copy,而我们提出的AET是一种更加直接地利用对变换本身的预测来实现无监督学习地方法。

我们目前在物体检测任务上已经可以beat全监督学习到的模型。下一步我们会在我的团队github主页上陆陆续续放出更多的结果与代码,欢迎大家关注

https://github.com/maple-research-lab?

github.com

同时,也欢迎大家关注我的知乎账号

齐国君?

www.zhihu.com图标

与我的专栏

深度学习前沿研究(MAPLE实验室)?

zhuanlan.zhihu.com图标

推荐一下我这次的工作, PolarMask: Single Shot Instance Segmentation with Polar Representation, 一种新的实例分割建模方法。 论文update后这两天会挂arxiv. (已经update)

之前的解读在这里,代码也已经开源,欢迎同行多多交流哈。

Johnny ez:PolarMask: 一阶段实例分割新思路?

zhuanlan.zhihu.com图标


推荐阅读:
相关文章