為什麼神經網路能用於未出現過的圖像的識別？

如果將一個（卷積）神經網路訓練看作一個函數擬合，自然可以想到它能在訓練集上擬合得到較小的loss從而在訓練集上實現較高的準確度，但是為什麼它也能在測試集上得到較高的準確度？
是兩個集合分佈之間有什麼關聯嗎？

對於正常的任務而言，你的訓練數據和測試數據必然是有所聯繫的。理想情況下，訓練數據和測試數據應該是同分布的。因此，訓練數據和測試數據都有很多相似的特徵。CNN可以看成是一個很強的特徵提取的工具，它把圖像從原空間映射到了特徵空間，在這個空間中能夠區分不同類的圖片。

對於相似分佈的測試圖像，通過這個訓練好的網路投影后的特徵一樣也能被分開。

但是由於實際中我們的訓練數據是有限的，也就是是對樣本空間中的一個抽樣。一個簡單的理解就是，這樣使得訓練數據並不能包含測試數據中出現的所有情況，它們的分佈不完全一樣。因此會出現測試集上的準確率稍低的情況。

這目前沒有人能解釋清楚。

我感覺應該是網路提取出來的特徵比較相似，就比如手寫數字識別，最終得到的特徵相似softmax就把它分到同一類去了

因為最優解所需要提取的特徵必然包括能夠在訓練集通用且區分度大的特徵。

訓練集夠大自然能夠在測試集使用這些通用而一針見血的特徵提取器來區分。

簡單說就是強迫神經網路發現最優區分特徵。

深度學習（DL）是一類機器學習演算法，使用多個層逐步從原始數據中提取更高層的特徵。

——維基百科

它表達於圖像中的意思如下

如何評價 CVPR 2020的論文接收結果？有哪些亮點論文？