像ResNet、SENet这些网路是怎么想出来的？

是按照自己的想像，从一堆想像中的模型框架挨个试出来的？还是有什么理论依据。
ResNet感觉看网上的解读比较有道理。
SENet这个我真的想不通为什么通过类似自编码的训练权重就代表了通道重要度的权重？想不通。
想问的是这些好框架的提出是不是先根据自己的思维提出一堆框架，然后挨个在ImageNet上看效果，哪个效果好，再对其进行人类思维方面的进一步解读？
我为何这么认为，因为我也试过，这些网路在有些数据集上表现欠佳，感觉神经网路不完全是按照我们框架思维来行事。

不知各位有何高见，我认为不少学生应该都有不少想法，但确实imagenet这种一般条件训练得几天或更长，而且大多框架调参也确实是涨分必须。导致有了想法，难以付诸实践。或许，以后随著硬体性能提升，训练时长大大缩短，更多框架会出现。
各位在提出新框架的心路历程又是怎样的？

有一些对张祥雨的采访 @新智元

经过几个月的研究，张祥雨发现，GoogLeNet 最本质的是它那条 1x1 的 shortcut。「说白了，可以把它简化到最简单，可以发现 GoogLeNet 只有两条路，一条是 1×1，另一条路是一 1x1 和一个 3x3」。
到底是什么在很低的复杂度上支撑起了 GoogLeNet 这么高的性能？张祥雨猜想，它的性能由它的深度决定，为了让 GoogLeNet 22 层的网路也能够成功地训练起来，它必须得有一条足够短的直路。基于这个思路，张祥雨开始设计一个模型，利用一个构造单元不断的往上分，虽然模型结构的会非常复杂，但是不管怎么复杂，它永远有一条路，但深度可以非常深。「我认为这种结构就可以保持足够的精度，同时也非常好训练，我把这个网路称为分形网。」张祥雨把分形网的成果跟何恺明商量，何恺明的意见是：结构还是过于复杂。「复杂的东西往往得不到本质」，何恺明一语中的，并建议进一步对这个模型进行化解，用它的一个简化形式。

于是张祥雨又延伸之前的假设：最短的路，决定容易优化的程度；最长的路，决定模型的能力，因此能不能把最短路尽可能的短，短到层数为零？把最深的路，无限的变深？
基于这个思路，诞生了ResNet，有一条路没有任何参数，可以认为层数是0。

我同学当祥雨的实习生时听说，类似的想法一天可能能想几十个，但是做成的非常少。其它很多经典之作的作者也会说自己的东西是拍脑袋想到。

虽然这些里程碑式的论文是一条条康庄大道，一个个消融实验也那么朴实。那只是作者们不会把它们没做成功的成百上千的实验写在论文里。如果见惯了简洁的定理和推演，不了解背后无数的历史弯路，就很难想像披荆斩棘的困难。

知道某个方向能做出东西，和在几千条路里选，完全不同。比方说 Alexnet 让人相信深度学习在图像分类上是有效的，于是深度学习很快就能遍地开花。大家会说读懂 Alexnet 并不难，但要说创造出 Alexnet，真不知前人铺垫了多少年，拍了千万次脑袋，最后等来某日天时地利人和。

刚开始入门看resnet，我内心os：这不就是一个跨层想加么，有什么了不起的。后续通过一步步求导推得，这真是一个有简单又有效的idea。

senet注意力机制应该是来自nlp领域，后续的网路也是在此基础上改。

怎么说呢，我觉得网路结构在初期的启发还是比较多的，总结了各个网路优势缺点，再自己提出。比如resnet针对恒等变换，inceptionnet探索加宽网路对性能的改变。res2net将不同感受野的张量进行拼接等等。

而后来人觉得好水文章，就各种魔改结构，无论效果好不好，为了凸显不同还是要改一改，连一点启发思路都没有，就硬调参，这里也仅针对某些文章。

不过今年也有几篇网路结构不错的文章，比如ghostnet，mobilenext。

现在我看网路结构论文也基本是一遍就过去了，不会纠结太多，因为纠结了也没什么实际意义

一般来说都是基于一个核心的观察或假设，比如ResNet的观察是网路越深理应性能越好，因为后面的层大不了可以学个恒等变换，然而实际上并不是这样，这里面肯定有问题。

而最近这一波注意力网路或者Transformer，大部分是基于「长距建模很重要，所以注意力可能比卷积牛逼」和「Transformer在NLP上这么吊，在CV说不定也更厉害」这两个出发点。

一般只能从论文的字里行间，推断作者的心路历程。