貼一個我以前寫的回答。。僅僅信號處理吧,資訊理論領域的更多,有空補充。

事實上,在過去的一個世紀裏,信號處理和機器學習的很多重大問題,都是由對方提供瞭解決方案。很多機器學習的方法都是從信號處理延伸而來,而信號處理領域的一些進展,也受到了機器學習思想的影響。

以下會從信號處理和機器學習兩個方面來分別解釋這個問題。


從信號處理到機器學習:

機器學習學者從其它領域學到了很多經驗和工具,毫無疑問信號處理是其中最重要的部分之一。

1.信息提取--數據的稀疏性採樣

機器學習在過去十年的顯著變化是訓練模型逐漸從低維向高維演化,訓練數據從小數據集向海量數據集演化。然而實際上,在工業界的訓練的過程中,我們很難找到如此巨大的數據集,這需要很多的人力物力,如果各位看官曾經嘗試用機器學習解決一些實際問題,相信非常明白這裡邊有多坑。

題主問的是NLP, 我們舉LDA(Latent Dirichlet allocation,隱狄利克雷分佈)模型為例,在訓練過程中很容易可以得到如上圖曲線。我們總是想要綠色的結果,而實際上,由於LDA模型存在大量的潛在變數,如果訓練集數據過少,得到的結果總是會欠擬合。

當機器學習專家困惑於海量數據集總是難以獲得時,陶哲軒,Donoho和Candès在信號處理領域的突破性進展--稀疏性採樣(或者叫壓縮感知)給這個問題指明瞭方向 [1],[2]。

在已知信號稀疏性的情況下,可能憑藉奈奎斯特採樣定理所規定更少的採樣數重建原信號。

我們回到LDA問題,根據稀疏性採樣理論,很自然的可以假設輸入數據是稀疏的,就是說,LDA中大部分的潛在變數是不常出現的(為0)。LDA問題的訓練數據集問題就得到了很好的解決。

事實上,機器學習學家對數據稀疏性的研究在過去十年間簡直可以稱得上瘋狂。

通過對稀疏性的研究,他們不僅完成了數據降維、雜訊矩陣分解,而且還實現了矩陣補全(matrix completion,這也是Netflix預測的技術),基於L1範數的正則化問題(L1範數可以引入稀疏性)。

甚至CNN(卷積神經網路)也用到了稀疏性來簡化模型,提高效率--稀疏連接(Sparse Combinations)。

2.估值理論,MAP,MLE,EM演算法

信號處理中的估值理論(如題主所說的統計信號處理)本是用以解決雷達和通信過程中的估計問題,比如MLE , MAP都是在雜訊信道中估計信號參數的最經典的演算法。。這些也被非常廣泛地應用於機器學習中。

相信很多學習機器學習演算法的人都認識EM演算法(Expectation Maximization)。它的本質還是一個參數估計問題,也在信號處理課程中介紹過。

EM演算法的主要思想是,當概率模型中存在不可觀測隱含變數時,怎麼估計未知參數。基於大數定理,隱變數的高斯混合模型是自然界事件的一個非常有效的假設,因此EM演算法在機器學習領域非常廣泛的用於估計標籤,推理參數等等。。。

3.維特比解碼--隱馬爾可夫模型

隱馬爾科夫模型(Hidden Markov Model,HMM)也是NLP中的一個非常常用的模型,它被廣泛用於分詞處理、信息識別等領域。

HMM中重要的一步是解碼(most likely explanation),當前最常用的解碼演算法就是來自於資訊理論和信號處理領域--維特比解碼(Viterbi algorithm)。維特比解碼講起來很長,我這裡就不做詳細解釋了,如果觀眾感興趣可以自行搜索。

維特比演算法由安德魯·維特比(Andrew Viterbi)於1967年提出,用於在數字通信鏈路中解卷積以消除噪音。此演算法被廣泛應用於CDMA和GSM數字蜂窩網路、撥號數據機、衛星、深空通信和802.11無線網路中解卷積碼[3]。

3.矢量量化--K-均值聚類

K-均值聚類(K-means clustering)其實是從矢量量化演進而來的,最開始是它依然是資訊理論和信號處理領域的研究方向。

綜上所述,雖然以上所述的一些開創性成果,嚴格意義上並不能算是信號處理領域的突破,但是可以毫不誇張的說,對於以上工具(稀疏性,參數估計,解碼,量化),信號處理的學者研究的會比ML學者要深入很多。

現階段ML的研究重點是在理解我們何時何地可以進行合適的推理,而正是由於信號處理領域對這些演算法的深入研究,才能給ML學者提供這些推理理解的工具。


從機器學習到信號處理:

小波分析-小波合成

信號處理關注的問題一直是,怎麼分析信號,怎麼從獲得的信號中提取 信息,比如從收到的一段電子音頻數據提取語音。這種問題過去的解決方案一直是對信號做分解,比如小波分析。

但是,在沒有先驗知識的時候,我們並不能精確的說分解到什麼時候合適,顯然並不是分解的越細粒度越好。1980年左右,Albert Benveniste和他的研究小組認為,我們應該建模信號而不是一直分析,應該把電子語音信號拼接在一起,以推斷潛在的語言變數。

這種方式被稱為小波合成。在當時存在著非常大的影響力。

這個說法是不是很熟悉??

沒錯,這個的核心思想其實是機器學習中非常經典的推理問題。各位看官看到這裡可能會比較疑惑,為什麼不能直接用機器學習演算法來解答呢?

小波合成的發展方向跟機器學習並不相同,如我之前所說,機器學習更傾向於更多的潛在變數,高維模型,而這類信號處理需要解決的是大範圍的雜訊雜訊影響,潛在變數的影響並不很高。比如水中聲吶和超大範圍雷達信號檢測。

綜上所述,其實一些信號處理領域的研究已經不僅僅是單純的分析,而是考慮了推理因素,從機器學習的發展中借鑒了很多。更多的信號處理學者開始投入機器學習研究,這可能是由於在機器學習領域存在著更多的機會和資金,也有可能是社會影響力更大。

不論從過程還是發展結果,如果你想深入理解機器學習的演算法思想,信號處理的理論對學習機器學習都有很大幫助。如果你只是想做代碼民工,僅僅用已經封裝好的各種工具,那就用處不大了。

寫這麼多字求贊啊...

[1] Candès E J, Romberg J, Tao T. Robust uncertainty principles: Exact signal reconstruction from highly incomplete frequency information[J]. IEEE Transactions on information theory, 2006, 52(2): 489-509.

[2]Candès, E.J., Wakin, M.B., An Introduction To Compressive Sampling, IEEE Signal Processing Magazine, V.21, March 2008

[3]Viterbi AJ. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm. IEEE Transactions on Information Theory. April 1967, 13 (2): 260–269.


要說的話到處都是啊,比如決策樹的剪枝和生長,比如ib theory做網路訓練分析,比如卷積和pooling,都可以在資訊理論裏找到解釋
推薦閱讀:
相關文章