像ResNet、SENet這些網路是怎麼想出來的？

是按照自己的想像，從一堆想像中的模型框架挨個試出來的？還是有什麼理論依據。
ResNet感覺看網上的解讀比較有道理。
SENet這個我真的想不通為什麼通過類似自編碼的訓練權重就代表了通道重要度的權重？想不通。
想問的是這些好框架的提出是不是先根據自己的思維提出一堆框架，然後挨個在ImageNet上看效果，哪個效果好，再對其進行人類思維方面的進一步解讀？
我為何這麼認為，因為我也試過，這些網路在有些數據集上表現欠佳，感覺神經網路不完全是按照我們框架思維來行事。

不知各位有何高見，我認為不少學生應該都有不少想法，但確實imagenet這種一般條件訓練得幾天或更長，而且大多框架調參也確實是漲分必須。導致有了想法，難以付諸實踐。或許，以後隨著硬體性能提升，訓練時長大大縮短，更多框架會出現。
各位在提出新框架的心路歷程又是怎樣的？

有一些對張祥雨的採訪 @新智元

經過幾個月的研究，張祥雨發現，GoogLeNet 最本質的是它那條 1x1 的 shortcut。「說白了，可以把它簡化到最簡單，可以發現 GoogLeNet 只有兩條路，一條是 1×1，另一條路是一 1x1 和一個 3x3」。
到底是什麼在很低的複雜度上支撐起了 GoogLeNet 這麼高的性能？張祥雨猜想，它的性能由它的深度決定，為了讓 GoogLeNet 22 層的網路也能夠成功地訓練起來，它必須得有一條足夠短的直路。基於這個思路，張祥雨開始設計一個模型，利用一個構造單元不斷的往上分，雖然模型結構的會非常複雜，但是不管怎麼複雜，它永遠有一條路，但深度可以非常深。「我認為這種結構就可以保持足夠的精度，同時也非常好訓練，我把這個網路稱為分形網。」張祥雨把分形網的成果跟何愷明商量，何愷明的意見是：結構還是過於複雜。「複雜的東西往往得不到本質」，何愷明一語中的，並建議進一步對這個模型進行化解，用它的一個簡化形式。

於是張祥雨又延伸之前的假設：最短的路，決定容易優化的程度；最長的路，決定模型的能力，因此能不能把最短路儘可能的短，短到層數為零？把最深的路，無限的變深？
基於這個思路，誕生了ResNet，有一條路沒有任何參數，可以認為層數是0。

我同學當祥雨的實習生時聽說，類似的想法一天可能能想幾十個，但是做成的非常少。其它很多經典之作的作者也會說自己的東西是拍腦袋想到。

雖然這些里程碑式的論文是一條條康庄大道，一個個消融實驗也那麼樸實。那只是作者們不會把它們沒做成功的成百上千的實驗寫在論文里。如果見慣了簡潔的定理和推演，不了解背後無數的歷史彎路，就很難想像披荊斬棘的困難。

知道某個方向能做出東西，和在幾千條路里選，完全不同。比方說 Alexnet 讓人相信深度學習在圖像分類上是有效的，於是深度學習很快就能遍地開花。大家會說讀懂 Alexnet 並不難，但要說創造出 Alexnet，真不知前人鋪墊了多少年，拍了千萬次腦袋，最後等來某日天時地利人和。

剛開始入門看resnet，我內心os：這不就是一個跨層想加么，有什麼了不起的。後續通過一步步求導推得，這真是一個有簡單又有效的idea。

senet注意力機制應該是來自nlp領域，後續的網路也是在此基礎上改。

怎麼說呢，我覺得網路結構在初期的啟發還是比較多的，總結了各個網路優勢缺點，再自己提出。比如resnet針對恆等變換，inceptionnet探索加寬網路對性能的改變。res2net將不同感受野的張量進行拼接等等。

而後來人覺得好水文章，就各種魔改結構，無論效果好不好，為了凸顯不同還是要改一改，連一點啟發思路都沒有，就硬調參，這裡也僅針對某些文章。

不過今年也有幾篇網路結構不錯的文章，比如ghostnet，mobilenext。

現在我看網路結構論文也基本是一遍就過去了，不會糾結太多，因為糾結了也沒什麼實際意義

一般來說都是基於一個核心的觀察或假設，比如ResNet的觀察是網路越深理應性能越好，因為後面的層大不了可以學個恆等變換，然而實際上並不是這樣，這裡面肯定有問題。

而最近這一波注意力網路或者Transformer，大部分是基於「長距建模很重要，所以注意力可能比卷積牛逼」和「Transformer在NLP上這麼吊，在CV說不定也更厲害」這兩個出發點。

一般只能從論文的字裡行間，推斷作者的心路歷程。