前言

在資訊理論(1)——熵、互信息、相對熵中,我們給出了熵的公理化定義:

H(X)=-sum_{xin mathcal{X}}^{}{p(x)log p(x)}

在這一文中,我們給出Shannon熵的公理化約定,並通過這個約定來推導出熵的形式的唯一性。

熵的唯一性定理

對於熵,Shannon公理化地規定了它的性質:

1.熵是連續的;即 f(p_{1},p_{2},...,p_{n}) ,在 p_{i} 上連續2.熵在等概率的時候,應該是單調函數;即當 g(N)=f(frac{1}{N},frac{1}{N},...,frac{1}{N}) 時,若 M>N ,則有 g(M)>g(N) ,其物理意義就是信息量越大,編碼長度越大。3.熵具有可加性;即 f(p_{1},p_{2},...,p_{n})=f( underbrace{p_{1}+p_{2}+...p_{m}} ,p_{m+1},...,p_{n})+(p_{1}+p_{2}+...p_{m})f(p{}_{1},p{}_{2},...,p{}_{m}) 其中 p{}_{i}=frac{p_{i}}{p_{1}+p_{2}+...+p_{m}} ,這一個性質需要特別說明一下,這個性質的物理含義就是,獨立地觀察n個事件所獲取的信息 f(p_{1},p_{2},...,p_{n}) ,等價於先對前m個事件合併觀察所得到的信息 f( underbrace{p_{1}+p_{2}+...p_{m}} ,p_{m+1},...,p_{n}) 加上這m個事件按概率出現的時候所觀察得到的信息 (p_{1}+p_{2}+...p_{m})f(p{}_{1},p{}_{2},...,p{}_{m})

這個數學化的表達可能會讓人暈眩,不過不要緊,我們先完成數學推導,後面再用真實的例子說明這三個公理化性質的。

熵的唯一性定理推導

首先,我們設隨機變數 Xsim Union(u) ,則容易得出:

g(MN)=f(frac{1}{MN},frac{1}{MN},...,frac{1}{MN}) ,然後分成M組,每組N個後,有:

g(MN)=f(underbrace{frac{1}{MN},frac{1}{MN},...,frac{1}{MN}},...,underbrace{frac{1}{MN},frac{1}{MN},...,frac{1}{MN}}) ,利用公理的性質3化簡後有: g(MN)=f(frac{1}{M},frac{1}{M},...,frac{1}{M})+sum_{i=1}^{M}{frac{1}{M}f(frac{1}{N},frac{1}{N},...,frac{1}{N})}=g(M)+g(N)

由上述推導,易得:

g(S^{m})=g(S	imes S^{m-1})=g(S)+g(S^{m-1})=...=mg(S) cdotscdotsoldsymbol{[1]}

s,m,t,nin N ,並構造 s^{m}leq t^{n} <s^{m+1} ,利用公理的性質2,易得

g(s^{m})leq g(t^{n})< g(s^{m+1})

利用 oldsymbol{[1]} 式有:

mg(s)leq ng(t) < (m+1)g(s)

frac{m}{n} leq frac{g(t)}{g(s)} < frac{m+1}{n}

- frac{1}{n} < 0leq frac{g(t)}{g(s)} -frac{m}{n} <frac{1}{n}

left| frac{g(t)}{g(s)} -frac{m}{n} 
ight | <frac{1}{n}cdotscdotsoldsymbol{[2]}

s^{m}leq t^{n} < s^{m+1} 兩邊取對數有:

mlogsleq n log t < (m+1)log s

left| frac{logt}{logs}- frac{m}{n} 
ight| < frac{1}{n}cdotscdotsoldsymbol{[3]}

oldsymbol{[2]}+oldsymbol{[3]} 有:

left| frac{g(t)}{g(s)} -frac{m}{n} 
ight | + left| frac{logt}{logs}- frac{m}{n} 
ight|<frac{2}{n}

left| frac{g(t)}{g(s)} -frac{m}{n} -left( frac{logt}{logs}- frac{m}{n}
ight) 
ight|<frac{2}{n}

left| frac{g(t)}{g(s)} - frac{logt}{logs} 
ight|<frac{2}{n}

n
ightarrow infty ,有

 frac{g(t)}{g(s)} 
ightarrow frac{logt}{logs}

g(u)=Clogucdotscdotsoldsymbol{[4]} ,取 C=frac{1}{u} 即為熵的基本形式。

然後,我們設隨機變數 Xsim p(x) ,通過等概分佈湊出所服從分佈:

不妨設 p_{n}=frac{m_{n}}{sum_{i=1}^{N}{m_{i}}}=frac{m_{n}}{M}

對於 g(M)=f(egin{matrix} underbrace{ frac{1}{M},frac{1}{M},cdots,frac{1}{M} } \ m_{1}end{matrix},...,egin{matrix} underbrace{ frac{1}{M},frac{1}{M},cdots,frac{1}{M} } \ m_{N}end{matrix}) 有:

g(M)=f(p_{1},p_{2},...,p_{N})+sum_{i=1}^{N}{frac{m_{i}}{M}}f(egin{matrix} underbrace{ frac{frac{1}{M}}{frac{m_{i}}{M}},cdots,frac{frac{1}{M}}{frac{m_{i}}{M}}} \ m_{i}end{matrix})

g(M)=f(p_{1},p_{2},...,p_{N})+sum_{i=1}^{N}{frac{m_{i}}{M}} g(m_{i}) f(p_{1},p_{2},...,p_{N})=g(M)-sum_{i=1}^{N}{frac{m_{i}}{M}} g(m_{i})=sum_{i=1}^{N}{frac{m_{i}}{M}}g(M)-sum_{i=1}^{N}{frac{m_{i}}{M}} g(m_{i})

f(p_{1},p_{2},...,p_{N})=sum_{i=1}^{N}{frac{m_{i}}{M}} left( g(M)-g(m_{i})
ight)

利用 oldsymbol{[4]} 式的結果有:

f(p_{1},p_{2},...,p_{N})=-Csum_{i=1}^{N}{frac{m_{i}}{M}}log frac{m_{i}}{M}=-Cp_{i}logp_{i} ,取 C=1

至此,Shannon熵的唯一性被推導出來!

熵的公理化性質舉例說明

公理化性質1——熵是連續的

為了簡單起見,我們不妨設隨機變數 X sim Bernoulli(p),pin (0,1) ,由熵的定義我們有:

H(X)=H(p)=-plogp-(1-p)log(1-p)

當p為未知數時,可以知道 H(p),p in(0,1) 為連續函數。

公理化性質2——熵在等概率的時候,應該是單調函數

不妨設 X sim Bernoulli(frac{1}{4}),Y sim Bernoulli(frac{1}{2}) ,則有:

H(X)=g(4)=4 	imes frac{1}{4} log 4=2 H(X)=g(2)=2 	imes frac{1}{2} log 2=14 > 2,g(4)>g(2)

公理化性質3——熵具有可加性

由上面討論有 X sim Bernoulli(frac{1}{4}) ,知 H(X)=2 ,下面改變觀察方法:

H(X)=g(4)=f(frac{1}{4},frac{1}{4},frac{1}{4},frac{1}{4})=f(frac{1}{2},frac{1}{4},frac{1}{4})+frac{1}{2} 	imes f(frac{1}{2},frac{1}{2}) g(4)=frac{1}{2}log2+frac{1}{4}log4+frac{1}{4}log4+frac{1}{2} 	imes left( frac{1}{2}log2+frac{1}{2}log2 
ight)=2H(X)=2,即觀察的方法不影響信息量的獲取。

推薦閱讀:

相關文章