作者丨許志欽、張耀宇

學校丨紐約大學阿布扎比分校博士後、紐約大學庫朗研究所訪問學者

研究方向丨計算神經科學、深度學習理論

近些年來,隨著深度學習在眾多實際應用中取得成功,在越來越多的科學領域內,研究人員開始嘗試利用深度學習來解決各自領域的傳統難題。和深度學習已獲得成功的問題(比如圖像分類)相比,許多科學領域內的問題往往有完全不同的特性。

因此,理解深度學習的適用性,即其能做什麼尤其是不能做什麼,是一個極為重要的問題。比如設計演算法的時候,它可以幫助我們考慮是完全用深度學習來代替傳統演算法,還是僅在這個問題中的某些步驟用深度學習。

為了探討這個問題,我們首先來看下面這個例子。在下面兩組圖中,左組中的每張圖和右組有什麼差別呢?

答案是左組的每張圖中黑塊數都是奇數,而右組都是偶數。這種按奇偶區分的函數數學上叫做 parity function:

其函數值由「-1」的個數決定,如果為偶數,結果為 1,否則為 -1。

對於該函數,如果取所有可能映射的一個子集進行訓練,深度神經網路能夠很好地擬合訓練數據,但對那些未見過的測試數據,深度學習幾乎沒有預測(泛化)能力。而對於人來說,只要能從訓練數據集中學到數「-1」個數這個規則,就很容易對未見過的數據進行準確分類。

對於很多問題,如圖像識別,深度學習通常能取得較好的效果(泛化能力)。為了敘述方便,我們將這些深度學習能處理好的問題稱為第一類問題,同時將深度學習處理不好(難以泛化)的問題稱為第二類問題。

那麼這兩類問題有什麼本質差別呢?深度學習模型為什麼對這兩類問題有截然相反的效果?

目前為止,大部分實驗研究和理論研究集中於研究為什麼深度學習能取得好的效果(泛化能力)。少部分的研究開始關注哪些問題深度學習難以處理。

在我們的研究中,我們希望能找到一個統一的機制,可以同時解釋深度學習在兩類問題中不同的效果。我們發現的機制可以用一句話概括:深度學習傾向於優先使用低頻來擬合目標函數。我們將這個機制稱為 F-Principle(頻率原則)。

我們先用一個簡單的例子來理解 F-Principle。用一個深度神經網路(DNN)去擬合如下的紅色實線函數。訓練完後,該曲線能被深度網路(藍色點)很好地擬合。

我們感興趣的是 DNN 的訓練過程。如下圖動畫所示(紅色為目標函數的 FT(傅裏葉變換),藍色為網路輸出的 FT,每一幀表示一個訓練步,橫坐標是頻率,縱坐標是振幅),我們發現,在訓練過程中,DNN 表示的函數的演化在頻域空間有一個清晰的規律,即頻率從低到高依次收斂。

對於真實數據,如 MNIST 和 CIFAR10,對於不同的網路結構,如全連接和卷積神經網路(CNN),對於不同的激活函數,如 tanh 和 ReLU,我們都可以觀察到 F-Principle(如下圖所示)。

▲ 左邊:數據集/DNN的Fourier變換在一個特定高維頻率方向的變化曲線,右圖:左圖中黑色頻率點處的相對誤差與訓練步數的關係,紅色表示相對誤差小。第一行是MNIST數據集的結果,使用全連接tanh網路。第二行是CIFAR10數據集的結果,使用ReLU-CNN網路。

接下來,我們可以用 F-Principle 來理解為什麼 DNN 在上述兩類問題的處理中有巨大的差異。從頻譜的角度,我們發現 MNIST 和 CIFAR10 數據集都有低頻佔優的特性。實驗結果顯示,全數據集(包含訓練集和測試集)在頻域空間與測試數據集在低頻部分吻合地很好,如下圖展示 MNIST 的情況。

parity 函數則不同,它是高頻佔優的。

由於 aliasing 效應,相比真實的頻譜,訓練集的頻譜在低頻處有顯著的虛假成分(見上圖)。下圖展示了一個 aliasing 的例子。

因此,對於我們舉的例子,這兩類問題在 Fourier 空間可以看到本質的差別。前者低頻佔優,後者高頻佔優。在訓練過程中,基於 F-Principle 低頻優先的機制,DNN 會傾向於用一個低頻成分較多的函數去擬合訓練數據。

對於 MNIST 和 CIFAR10,一方面由於高頻成分較小,aliasing 帶來的虛假低頻微不足道,另一方面由於 DNN 訓練中低頻優先的傾向與目標函數本身的低頻佔優的特性相一致,所以 DNN 能準確抓取目標函數的關鍵成分(下圖藍色為 DNN 學習到的函數在全數據集上的傅裏葉變換在一個特定高維頻率方向的曲線),從而擁有良好的泛化能力。

而對於 parity 函數,由於高頻成分極為顯著,aliasing 帶來的虛假低頻很嚴重,同時 F-principle 低頻優先的傾向與目標函數本身高頻佔優的特性不匹配,所以 DNN 最終輸出函數相比於目標函數低頻顯著偏大而高頻顯著偏小。顯然,這種顯著的差異會導致較差的泛化能力。

▲ 紅色:訓練數據集的傅裏葉變換;綠色:全數據集的傅裏葉變換;藍色:網路輸出在全數據集輸入點的傅裏葉變換

我們利用 F-Principle 對深度學習能做什麼與不能做什麼做了初步的探索,理解了具有低頻優先特性的深度學習對於具有不同頻譜特性的問題的適用性。如果目標函數具有低頻佔優的特性,那麼深度學習比較容易取很好的效果,反之則不然。

進一步,我們可以利用深度學習這一特性更好地處理具體問題中的低頻成分。比如傳統演算法(如 Jacobi 迭代)在解 Poisson 方程時,一般低頻收斂慢,而高頻收斂快。我們將在下一篇文章中介紹如何利用 F-Principle 機制設計基於 DNN 的 Poisson 方程求解方法。

參考文獻

Xu, Zhi-Qin John, Zhang, Yaoyu, Luo, Tao, Xiao, Yanyang & Ma, Zheng (2019), 『Frequency principle: Fourier analysis sheds light on deep neural networks』, arXiv preprint arXiv: 1901.06523.

#投 稿 通 道#

如何才能讓更多的優質內容以更短路徑到達讀者羣體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術乾貨。我們的目的只有一個,讓知識真正流動起來。

?? 來稿標準:

? 稿件確系個人原創作品,來稿需註明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)

? 如果文章並非首發,請在投稿時提醒並附上所有已發布鏈接

? PaperWeekly 默認每篇文章都是首發,均會添加「原創」標誌

?? 投稿方式:

? 方法一:在PaperWeekly知乎專欄頁面點擊「投稿」,即可遞交文章

? 方法二:發送郵件至:[email protected] ,所有文章配圖,請單獨在附件中發送

? 請留下即時聯繫方式(微信或手機),以便我們在編輯發布時和作者溝通

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點擊「交流羣」,小助手將把你帶入 PaperWeekly 的交流羣裏。

加入社區:paperweek.ly

微信公眾號:PaperWeekly

新浪微博:@PaperWeekly


推薦閱讀:
相關文章