本文首發於微信公眾號「腦人言」(ibrain-talk)和知乎專欄「羣體智能」,授權轉載請聯繫後臺管理員。

Original Title:The Entropy of Artificial Intelligence and a Case Study of AlphaZero from Shannons Perspective

Original Pre-print:arxiv-version

For original link,please visit Dive into the Origin of the Intelligence and Research Gate

簡要解讀

最近發布的AlphaZero演算法在國際象棋、shogi和Go遊戲中超越了人類頂級棋手,這提出了兩個開放性的問題。

  • AlphaZero系統或者其它智能系統的智能如何度量?是否存在終極智能?
  • AlphaZero系統中複雜的強化學習和自對弈(self-play)範式是否對應簡潔的資訊理論模型,從而能夠支持對其學習過程的量化分析,並發現更多可一般化的認識。

針對上述兩個問題,本文作了初步的嘗試:

  • 通過智能-信息統一模型視角,可以將智能系統建模為外部和內部通信信道。通過引入智能熵的概念,智能系統的智能演化過程可以看作解析信道傳遞的信息,不斷提升智能熵的過程。在特定環境和給定任務的前提下,智能熵存在上界並且該上界可以由外部信道容量嚴格界定——從而引入智能容量的概念。
  • AlphaZero系統中,兩個對弈的智能體是在協同演化,通過迭代編解碼試圖逼近智能容量。因此,可以將其建模為經典的Turbo編碼和迭代解碼架構,並且已經有EXIT-chart這一經典量化分析工具,可用於其學習演化過程的量化分析。

最後,本文基於上述認識,給出了如何構建強人工智慧的理論和應用方面的粗淺認識,供後續深入研究。

一、簡介

在圖1中,我們將(3)中提出的通用智能通信模型(UICM)應用到AlphaZero上。具體而言,AlphaZero中有兩個智能體可以自對弈,並且它們通過環境彼此交互,例如19*19棋盤。每個智能體在做出決定和採取下一步行動之前,觀察其對手的移動,評估棋盤的情況,識別模式並預測未來的行動。信息交換和處理流程等價於智能體A和智能體B之間的雙向交互香農通信模型,其中通信信道是棋盤,DecX_Ext是外部信道解碼器,SrcX和DesA是信息源和信息宿,FX是反饋學習通路,基於歷史經驗所更新的DesX也可以促進SrcX的演化,支撐更有效的棋路(行動)。因此兩個自對弈AlphaZero智能體的感知和行為可以被建模為解碼器和編碼器,實現智能體和環境之間的交互。

圖1:AlphaZero的智能-通信統一模型

在國際象棋或圍棋中,兩個智能體都試圖贏得比賽,因此每個智能體都試圖預測彼此的行為。因此,我們可以通過添加內部通信通道來概括香農的通信模型,如圖2所示。

在智能體A中,它構建內部環境模型,包括棋盤、智能體B和評價者critic(圖中未示出),用於評估獲勝概率。因此,智能體A可以在其內部通過虛擬棋盤與虛擬智能體B進行對弈。這種內在的思維過程也可以被建模為雙向通信。為了區分不同的信道,我們將真實智能體A和B之間的通信表示為外部(External,簡稱Ext)通信,而智能體內部的通信表示為內部(Internal,簡稱Int)通信。每個AlphaZero智能體可以建立內部通道或環境模型,也建立對方智能體的模型,預測其可能採取的行動並評估效果,同時學習對手智能體的行為。

圖2:具有內部環境模型和內部通道的智能-通信統一模型

二、智能熵和智能容量

AlphaZero中單個智能體的目標是獲得更多對手信息,從而採取更有效的行動。具體而言,在兩個智能體的「零和博弈」中,智能體A解碼的關於智能體B的源信息量表示為IB-A,智能體B解碼的關於智能體A的源信息量表示為IA-B。智能體A佔主導地位的條件是IB-A >IA-B,即智能體A更高概率確定其對手的感知-行動策略,從而採取更有效的行動。

因此,本文提出了智能熵的概念—即智能體可從外部通信信道(環境)中獲取的互信息量,可以由熵來量化,而後者不能超過外部通信信道的香農容量。

以AlphaZero為例,其獲得的信息熵應當為自對弈智能體的最大值。AlphaZero的智能熵可以被定義為能夠獲取的關於環境(包括環境中的對弈者)的信息量,因此可以被外部信道的信道容量嚴格界定。在圍棋中,外部信道是361個落點的棋盤,其時空序列最多包含361!種狀態,因此其信道容量C可以很快界定如下。

Imax(A,B) = MAX ( IB-A, IA-B ) ≤ C ≤ log2(361!) ≈ 2552.

式中的不等號代表了圍棋的規則可能限制了某些狀態,因此信道容量有所下降,但是這個可以另行嚴格測算,不影響本文的結論——在給定環境(如圍棋棋盤)和任務(如圍棋對弈)的前提下,智能體的智能熵存在上界——智能容量,用於表徵所能達到的最高智能水平,即在給定環境和任務下的終極智能度量。

三、AlphaZero自對弈模型中蘊含的迭代解碼架構

在明確了智能容量或外部信道容量的前提下,我們以AlphaZero為案例,研究如何通過設計解碼器,從而從外部信道(環境)中獲取比人類智能更高的智能熵,並更接近圍棋對弈的智能容量

兩個對弈的智能體在AlphaZero的內部通信信道中協同進化,並且每個智能體之間相互迭代,解析來自外部和內部通信信道的信息。我們可以將每個智能體作為一個解碼器,作為資訊理論領域(3)中著名的Turbo解碼器的分量解碼器。

這種Turbo迭代設計在逼近香農容量糾錯碼設計方面曾經取得了歷史性的突破。在其發明前的若干年,一度認為香農信道容量遠不可在有限編碼長度和計算資源條件下實現。當下,類似的困局也在若干人工智慧領域重演,而AlphaZero在棋類對弈這一細分領域實現了突破,本文認為,從資訊理論的角度出發,其成功主要原因在於迭代解碼思想。

AlphaZero的迭代解碼結構可以直接從圖2中提取,但是我們在圖3中重新繪製它以使其信息流動關係更加清楚。

圖3:AlphaZero中蘊含的迭代解碼架構

每個AlphaZero智能體構成一個解碼器,用於從外部信道和內部信道中提取關於其對弈智能體的信息。該解碼器可以輸出外部信息,以逐步降低關於其對手智能體信息的不確定性。

傳統的Turbo解碼器與提出的Turbo解碼器的主要區別在於信息源。互動式Turbo解碼器中的兩個分量解碼器試圖從單個信息源恢複信息。例如,智能體A的目標是解析來自智能體B的信息源,從而有效地、甚至完全預測智能體B的未來行動,從而採取合適的行動贏得遊戲。然而,由於智能體A不能直接入侵智能體B的思維模式(獲得上帝視角),因此只能在智能體A內部構建智能體B的模型。

但是,在智能體A內所構建的智能體B的源信息SrcB2,本質上是對SrcB的近似,在學習過程中能夠改進。一種簡化視角是將SrcB到SrcB2的編碼過程,以及EncB_Ext2中的編碼過程等效為一個信息編碼過程,從而形式化為一個隨時間演化的編碼器。此外,FA和FB的反饋設計可以是完全互易的,但是非互易的設計不代表一定不能獲得最優解碼性能。因此,AlphaZero中的迭代解碼器的結構可以等效於標準的Turbo迭代解碼結構(3)。

四、學習過程的定量分析

在深入研究定量分析之前,我們給出以下觀點。儘管自對弈智能體在減少彼此的不確定性方面正在競爭,但為了在外部信道上聯合解碼信息,它們是協同工作的,並且旨在達到信道容量。這裡,我們來看看AlphaZero學習過程中使用的Elo度量,其中e(·)表示Elo評級,更高的評級意味著更高的獲勝概率,而e(A)或e(B)可能沒有上界。

Pr{A defeats B} = 1 / ( 1 + 10 ^ (C_elo*(e(B) - e(A))).

只要對弈的兩個智能體能力相當,使得e(A) = e(B),AlphaZero中的兩個智能體依然具有相等的獲勝或失敗的概率。因此,以Elo為度量的智能沒有上界。

因此,我們把觀點轉換到用香農信息熵來度量學習過程。首先,AlphaZero的智能上限也是自對弈智能體A或B的智能上限。其次,如圖3所示,如果由自對弈智能體形成的分量解碼器之間交換的外部信息不再增加,則學習過程也停止,因此智能體A或B的智能水平也無法進一步提升了。注意兩點:

  • 在逼近上述過程中,Elo趨於無窮
  • 外部信息IE(A)和IE(B)未必達到1.0,因為學習過程可能陷入和終止於局部最優。

這種外部信息交換過程可以量化分析。在通信學界,為了分析和優化迭代解碼,Stephan Ten Brink博士提出了EXtrinsic Information Transfer圖(EXIT圖),支持定量分析和圖形化表示,可以通過EXIT圖表中的外信息曲線來區分學習過程是否達到全局最優,或者陷入局部最優。

圖4中提供了兩個示例。關於IE(A)和IE(B)曲線的案例研究的進一步結果將公佈在論文的發表版本。

圖4:外部信息曲線的例子。如果兩個分量解碼器的外部信息曲線可以組成從(0,0)到(1,1)的開放通道,學習過程可能成功,實際中還取決於內部通道的模型(5)。如果兩條曲線在除了(0,0)和(1,1)兩個端點之外有交點,則學習過程通常不能達到全局最優。

五、結論與啟示

本文將智能體與環境的相互作用建模為外部通信信道和內部通信通道之間的信息流動,而智能體的智能上限可由香農的信道容量給出。本文還討論了能夠逼近智能容量的智能體設計,重點分析了AlphaZero中蘊含的迭代解碼架構。據此,EXIT圖可以作為預測智能體學習性能的定量分析工具。在(3)中將更詳細地討論關於智能-通信統一模型,這裡簡要地將AlphaZero所提供的借鑒總結如下:

  • 智能體的學習本質是為了最大限度地還原外部通信信道(環境)所傳遞的信息,提升自身的智能熵,因此其獲得的智能熵由外部信道的信道容量所限定。以AlphaZero為例,其外部信道是靜態的圍棋棋盤,其信道容量不超過log2(361!)。
  • 智能體的自對弈(對抗學習)過程的本質是迭代解碼,從而逼近給定環境和任務條件下的智能容量,或者等效而言,在其內部構建無損的信道模型。以AlphaZero為例,兩個智能體通過構建和更新內部信道模型(環境模型),來實現對外部信道(環境)的學習和適應。通過學習和演化,智能體的內部信道模型(環境模型)可能無限逼近外部信道模型(環境)。例如,在AlphaZero中,內部信道(環境模型)的終極目標是重構所有361!種可能狀態。
  • 從理論角度進一步審視上述觀點,我們可以在圍棋對弈中定義終極智能。終極圍棋智能能夠達到特定的圍棋棋盤環境下的智能上限。而如果兩個終極圍棋智能進行對弈,他們彼此都有完全充分的信息。在這種情況下,獲勝概率僅決定於先手的選擇概率即50%,等效於量子疊加態,其不確定性處於最高。在兩個終極智能的先手一旦確定,不確定度將立即降低到0,即測量導致了該量子疊加態的坍縮。
  • 借鑒AlphaZero在棋類遊戲的突破,其設計思想中的迭代解碼或學習原理可能應用到其他領域的智能體設計。例如內部信道可以通過諸如深層神經網路之類的非線性組件來構建,從而近似大容量的外部信道(環境模型)。因此,如果遵循獨立編碼和迭代解碼思想,來構建逼近智能容量的學習系統,與現有技術中普遍採用的單分量解碼器相比,可能帶來學習性能上的突破。
  • EXIT圖可以作為量化分析智能體學習過程的有力工具,但是要解決動態開放環境時互信息量的評估問題。因為一般而言,智能體所處的環境比AlphaZero的靜態封閉棋盤複雜得多。

六、參考文獻

1. Silver, D. et al., A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play. Science 362, 1140 – 1144 (2018).

2. C. E. 香農, A mathematical theory of communication. Bell Labs Technical Journal 27.4, 379-423 (1948).

3. B. Zhang et al., An Unified Intelligence-Communication Model for Multi-Agent System Part-I: Overview. arXiv preprint arXiv:1811.09920 (2018).

4. C. Berrou, A. Glavieux, P. Thitimajshima. Near 香農 limit error-correcting coding and decoding. IEEE International Conference on Communications. (1993).

5. S. T. Brink, Convergence behavior of iteratively decoded parallel concatenated codes. IEEE Trans Commun 49.10, 1727-1737 (2001).


推薦閱讀:
相關文章