因此,对于我们举的例子,这两类问题在 Fourier 空间可以看到本质的差别。前者低频占优,后者高频占优。在训练过程中,基于 F-Principle 低频优先的机制,DNN 会倾向于用一个低频成分较多的函数去拟合训练数据。
对于 MNIST 和 CIFAR10,一方面由于高频成分较小,aliasing 带来的虚假低频微不足道,另一方面由于 DNN 训练中低频优先的倾向与目标函数本身的低频占优的特性相一致,所以 DNN 能准确抓取目标函数的关键成分(下图蓝色为 DNN 学习到的函数在全数据集上的傅里叶变换在一个特定高维频率方向的曲线),从而拥有良好的泛化能力。
而对于 parity 函数,由于高频成分极为显著,aliasing 带来的虚假低频很严重,同时 F-principle 低频优先的倾向与目标函数本身高频占优的特性不匹配,所以 DNN 最终输出函数相比于目标函数低频显著偏大而高频显著偏小。显然,这种显著的差异会导致较差的泛化能力。