最大熵準則背後的一連串秘密

（閱前註：

1. 閱讀本文前已全面了解統計機器學習中最大熵模型（MEM），有向圖模型（DAG），無向圖模型（UGM）等相關內容會獲得更好閱讀體驗。2. 本文不是教科書式的介紹，而是借技術分享文自由而不受限的形式，把嚴謹的教材（尤其中式教材）中為了主線的清晰，講清楚「怎麼辦」的內容以外，卻部分難以展現的關於「是什麼」和「為什麼」的一些思考分享出來供大家參考，這些內容考試絕不會考，但筆者認為這一定是能否擁有解決問題能力的關鍵。3. 本文所有概念中文名僅出現一次，下文英文簡稱可與之對照。）

相信大家在做機器學習相關研究中，都或多或少遇到過以下這些概念：最大熵（ME），指數分布族（EFD），貝葉斯網路（BN），馬爾可夫隨機場（MRF），動態圖模型（DBN），隱馬爾可夫模型（HMM），條件隨機場（CRF），最大熵馬爾可夫模型（MEMM），加權有限狀態自動機（WFST），喬姆斯基文法（Chomsky Grammar）等等，這些初次見面看起來頭大，二次見面如同初識的概念可能一定程度上困擾著我們，這些方法到底如何選用？為什麼要搞出這麼多概念來？拋開演算法執行層面的具體細節，他們產生的來龍去脈是什麼？有著怎樣的聯繫？今天，就和大家分享一下我在這部分內容上的一些思考。

1. 一個中心：最大熵準則這是一個原則性的指導思想，實踐中在其他應用指導下才能生效，而平常我們用的極大似然估計方法，是最大熵準則求解步驟中的最後一步。先來看最大熵模型的定義（這裡統一用求和代表離散隨機變數的求和和連續隨機變數的積分，二者公式推導沒有本質區別）：