因此,對於我們舉的例子,這兩類問題在 Fourier 空間可以看到本質的差別。前者低頻佔優,後者高頻佔優。在訓練過程中,基於 F-Principle 低頻優先的機制,DNN 會傾向於用一個低頻成分較多的函數去擬合訓練數據。
對於 MNIST 和 CIFAR10,一方面由於高頻成分較小,aliasing 帶來的虛假低頻微不足道,另一方面由於 DNN 訓練中低頻優先的傾向與目標函數本身的低頻佔優的特性相一致,所以 DNN 能準確抓取目標函數的關鍵成分(下圖藍色為 DNN 學習到的函數在全數據集上的傅裏葉變換在一個特定高維頻率方向的曲線),從而擁有良好的泛化能力。
而對於 parity 函數,由於高頻成分極為顯著,aliasing 帶來的虛假低頻很嚴重,同時 F-principle 低頻優先的傾向與目標函數本身高頻佔優的特性不匹配,所以 DNN 最終輸出函數相比於目標函數低頻顯著偏大而高頻顯著偏小。顯然,這種顯著的差異會導致較差的泛化能力。