(閱前註:
1. 閱讀本文前已全面了解統計機器學習中最大熵模型(MEM),有向圖模型(DAG),無向圖模型(UGM)等相關內容會獲得更好閱讀體驗。2. 本文不是教科書式的介紹,而是借技術分享文自由而不受限的形式,把嚴謹的教材(尤其中式教材)中為了主線的清晰,講清楚「怎麼辦」的內容以外,卻部分難以展現的關於「是什麼」和「為什麼」的一些思考分享出來供大家參考,這些內容考試絕不會考,但筆者認為這一定是能否擁有解決問題能力的關鍵。3. 本文所有概念中文名僅出現一次,下文英文簡稱可與之對照。)
相信大家在做機器學習相關研究中,都或多或少遇到過以下這些概念:最大熵(ME),指數分布族(EFD),貝葉斯網路(BN),馬爾可夫隨機場(MRF),動態圖模型(DBN),隱馬爾可夫模型(HMM),條件隨機場(CRF),最大熵馬爾可夫模型(MEMM),加權有限狀態自動機(WFST),喬姆斯基文法(Chomsky Grammar)等等,這些初次見面看起來頭大,二次見面如同初識的概念可能一定程度上困擾著我們,這些方法到底如何選用?為什麼要搞出這麼多概念來?拋開演算法執行層面的具體細節,他們產生的來龍去脈是什麼?有著怎樣的聯繫?今天,就和大家分享一下我在這部分內容上的一些思考。
1. 一個中心:最大熵準則這是一個原則性的指導思想,實踐中在其他應用指導下才能生效,而平常我們用的極大似然估計方法,是最大熵準則求解步驟中的最後一步。先來看最大熵模型的定義(這裡統一用求和代表離散隨機變數的求和和連續隨機變數的積分,二者公式推導沒有本質區別):