資訊理論（2）——熵的唯一性定理

前言

在資訊理論（1）——熵、互信息、相對熵中，我們給出了熵的公理化定義：

$H(X)=-sum_{xin mathcal{X}}^{}{p(x)log p(x)}$

在這一文中，我們給出Shannon熵的公理化約定，並通過這個約定來推導出熵的形式的唯一性。

熵的唯一性定理

對於熵，Shannon公理化地規定了它的性質：
1.熵是連續的；即 $f(p_{1},p_{2},...,p_{n})$ ，在 $p_{i}$ 上連續2.熵在等概率的時候，應該是單調函數；即當 $g(N)=f(frac{1}{N},frac{1}{N},...,frac{1}{N})$ 時，若 ,則有，其物理意義就是信息量越大，編碼長度越大。3.熵具有可加性；即 $f(p_{1},p_{2},...,p_{n})=f( underbrace{p_{1}+p_{2}+...p_{m}} ,p_{m+1},...,p_{n})+(p_{1}+p_{2}+...p_{m})f(p{}_{1},p{}_{2},...,p{}_{m})$ 其中 $p{}_{i}=frac{p_{i}}{p_{1}+p_{2}+...+p_{m}}$ ,這一個性質需要特別說明一下，這個性質的物理含義就是，獨立地觀察n個事件所獲取的信息 $f(p_{1},p_{2},...,p_{n})$ ,等價於先對前m個事件合併觀察所得到的信息 $f( underbrace{p_{1}+p_{2}+...p_{m}} ,p_{m+1},...,p_{n})$ 加上這m個事件按概率出現的時候所觀察得到的信息 $(p_{1}+p_{2}+...p_{m})f(p{}_{1},p{}_{2},...,p{}_{m})$

這個數學化的表達可能會讓人暈眩，不過不要緊，我們先完成數學推導，後面再用真實的例子說明這三個公理化性質的。

熵的唯一性定理推導

首先，我們設隨機變數 ,則容易得出：

$g(MN)=f(frac{1}{MN},frac{1}{MN},...,frac{1}{MN})$ ,然後分成M組，每組N個後，有：

$g(MN)=f(underbrace{frac{1}{MN},frac{1}{MN},...,frac{1}{MN}},...,underbrace{frac{1}{MN},frac{1}{MN},...,frac{1}{MN}})$ ,利用公理的性質3化簡後有： $g(MN)=f(frac{1}{M},frac{1}{M},...,frac{1}{M})+sum_{i=1}^{M}{frac{1}{M}f(frac{1}{N},frac{1}{N},...,frac{1}{N})}=g(M)+g(N)$

由上述推導，易得：

$g(S^{m})=g(S imes S^{m-1})=g(S)+g(S^{m-1})=...=mg(S) cdotscdotsoldsymbol{[1]}$

取，並構造 $s^{m}leq t^{n} <s^{m+1}$ ，利用公理的性質2，易得

$g(s^{m})leq g(t^{n})< g(s^{m+1})$

利用式有：

$frac{m}{n} leq frac{g(t)}{g(s)} < frac{m+1}{n}$

$- frac{1}{n} < 0leq frac{g(t)}{g(s)} -frac{m}{n} <frac{1}{n}$

$left| frac{g(t)}{g(s)} -frac{m}{n} ight | <frac{1}{n}cdotscdotsoldsymbol{[2]}$

對 $s^{m}leq t^{n} < s^{m+1}$ 兩邊取對數有：

$left| frac{logt}{logs}- frac{m}{n} ight| < frac{1}{n}cdotscdotsoldsymbol{[3]}$

有：

$left| frac{g(t)}{g(s)} -frac{m}{n} ight | + left| frac{logt}{logs}- frac{m}{n} ight|<frac{2}{n}$

$left| frac{g(t)}{g(s)} -frac{m}{n} -left( frac{logt}{logs}- frac{m}{n} ight) ight|<frac{2}{n}$

$left| frac{g(t)}{g(s)} - frac{logt}{logs} ight|<frac{2}{n}$

令，有

$frac{g(t)}{g(s)} ightarrow frac{logt}{logs}$

即 ,取 $C=frac{1}{u}$ 即為熵的基本形式。

然後，我們設隨機變數 ,通過等概分佈湊出所服從分佈：

不妨設 $p_{n}=frac{m_{n}}{sum_{i=1}^{N}{m_{i}}}=frac{m_{n}}{M}$

對於 $g(M)=f(egin{matrix} underbrace{ frac{1}{M},frac{1}{M},cdots,frac{1}{M} } \ m_{1}end{matrix},...,egin{matrix} underbrace{ frac{1}{M},frac{1}{M},cdots,frac{1}{M} } \ m_{N}end{matrix})$ 有：

$g(M)=f(p_{1},p_{2},...,p_{N})+sum_{i=1}^{N}{frac{m_{i}}{M}}f(egin{matrix} underbrace{ frac{frac{1}{M}}{frac{m_{i}}{M}},cdots,frac{frac{1}{M}}{frac{m_{i}}{M}}} \ m_{i}end{matrix})$

$g(M)=f(p_{1},p_{2},...,p_{N})+sum_{i=1}^{N}{frac{m_{i}}{M}} g(m_{i})$ $f(p_{1},p_{2},...,p_{N})=g(M)-sum_{i=1}^{N}{frac{m_{i}}{M}} g(m_{i})=sum_{i=1}^{N}{frac{m_{i}}{M}}g(M)-sum_{i=1}^{N}{frac{m_{i}}{M}} g(m_{i})$

$f(p_{1},p_{2},...,p_{N})=sum_{i=1}^{N}{frac{m_{i}}{M}} left( g(M)-g(m_{i}) ight)$

利用式的結果有：

$f(p_{1},p_{2},...,p_{N})=-Csum_{i=1}^{N}{frac{m_{i}}{M}}log frac{m_{i}}{M}=-Cp_{i}logp_{i}$ ，取

至此，Shannon熵的唯一性被推導出來!

熵的公理化性質舉例說明

公理化性質1——熵是連續的

為了簡單起見，我們不妨設隨機變數，由熵的定義我們有：

當p為未知數時，可以知道為連續函數。

公理化性質2——熵在等概率的時候，應該是單調函數

不妨設 $X sim Bernoulli(frac{1}{4}),Y sim Bernoulli(frac{1}{2})$ ,則有：
$H(X)=g(4)=4 imes frac{1}{4} log 4=2$ $H(X)=g(2)=2 imes frac{1}{2} log 2=1$ 故

公理化性質3——熵具有可加性

由上面討論有 $X sim Bernoulli(frac{1}{4})$ ，知，下面改變觀察方法：
$H(X)=g(4)=f(frac{1}{4},frac{1}{4},frac{1}{4},frac{1}{4})=f(frac{1}{2},frac{1}{4},frac{1}{4})+frac{1}{2} imes f(frac{1}{2},frac{1}{2})$ $g(4)=frac{1}{2}log2+frac{1}{4}log4+frac{1}{4}log4+frac{1}{2} imes left( frac{1}{2}log2+frac{1}{2}log2 ight)=2$ 故，即觀察的方法不影響信息量的獲取。