(阅前注:
1. 阅读本文前已全面了解统计机器学习中最大熵模型(MEM),有向图模型(DAG),无向图模型(UGM)等相关内容会获得更好阅读体验。2. 本文不是教科书式的介绍,而是借技术分享文自由而不受限的形式,把严谨的教材(尤其中式教材)中为了主线的清晰,讲清楚「怎么办」的内容以外,却部分难以展现的关于「是什么」和「为什么」的一些思考分享出来供大家参考,这些内容考试绝不会考,但笔者认为这一定是能否拥有解决问题能力的关键。3. 本文所有概念中文名仅出现一次,下文英文简称可与之对照。)
相信大家在做机器学习相关研究中,都或多或少遇到过以下这些概念:最大熵(ME),指数分布族(EFD),贝叶斯网路(BN),马尔可夫随机场(MRF),动态图模型(DBN),隐马尔可夫模型(HMM),条件随机场(CRF),最大熵马尔可夫模型(MEMM),加权有限状态自动机(WFST),乔姆斯基文法(Chomsky Grammar)等等,这些初次见面看起来头大,二次见面如同初识的概念可能一定程度上困扰著我们,这些方法到底如何选用?为什么要搞出这么多概念来?抛开演算法执行层面的具体细节,他们产生的来龙去脉是什么?有著怎样的联系?今天,就和大家分享一下我在这部分内容上的一些思考。
1. 一个中心:最大熵准则这是一个原则性的指导思想,实践中在其他应用指导下才能生效,而平常我们用的极大似然估计方法,是最大熵准则求解步骤中的最后一步。先来看最大熵模型的定义(这里统一用求和代表离散随机变数的求和和连续随机变数的积分,二者公式推导没有本质区别):