最大熵准则背后的一连串秘密

（阅前注：

1. 阅读本文前已全面了解统计机器学习中最大熵模型（MEM），有向图模型（DAG），无向图模型（UGM）等相关内容会获得更好阅读体验。2. 本文不是教科书式的介绍，而是借技术分享文自由而不受限的形式，把严谨的教材（尤其中式教材）中为了主线的清晰，讲清楚「怎么办」的内容以外，却部分难以展现的关于「是什么」和「为什么」的一些思考分享出来供大家参考，这些内容考试绝不会考，但笔者认为这一定是能否拥有解决问题能力的关键。3. 本文所有概念中文名仅出现一次，下文英文简称可与之对照。）

相信大家在做机器学习相关研究中，都或多或少遇到过以下这些概念：最大熵（ME），指数分布族（EFD），贝叶斯网路（BN），马尔可夫随机场（MRF），动态图模型（DBN），隐马尔可夫模型（HMM），条件随机场（CRF），最大熵马尔可夫模型（MEMM），加权有限状态自动机（WFST），乔姆斯基文法（Chomsky Grammar）等等，这些初次见面看起来头大，二次见面如同初识的概念可能一定程度上困扰著我们，这些方法到底如何选用？为什么要搞出这么多概念来？抛开演算法执行层面的具体细节，他们产生的来龙去脉是什么？有著怎样的联系？今天，就和大家分享一下我在这部分内容上的一些思考。

1. 一个中心：最大熵准则这是一个原则性的指导思想，实践中在其他应用指导下才能生效，而平常我们用的极大似然估计方法，是最大熵准则求解步骤中的最后一步。先来看最大熵模型的定义（这里统一用求和代表离散随机变数的求和和连续随机变数的积分，二者公式推导没有本质区别）：