AlphaZero和人工智慧是否存在學習極限？——從智能熵和智能容量的角度進行建模與分析

本文首發於微信公眾號「腦人言」（ibrain-talk）和知乎專欄「羣體智能」，授權轉載請聯繫後臺管理員。

Original Title:The Entropy of Artificial Intelligence and a Case Study of AlphaZero from Shannons Perspective

Original Pre-print：arxiv-version

For original link，please visit Dive into the Origin of the Intelligence and Research Gate

簡要解讀

最近發布的AlphaZero演算法在國際象棋、shogi和Go遊戲中超越了人類頂級棋手，這提出了兩個開放性的問題。

AlphaZero系統或者其它智能系統的智能如何度量？是否存在終極智能？
AlphaZero系統中複雜的強化學習和自對弈（self-play）範式是否對應簡潔的資訊理論模型，從而能夠支持對其學習過程的量化分析，並發現更多可一般化的認識。

針對上述兩個問題，本文作了初步的嘗試：

通過智能-信息統一模型視角，可以將智能系統建模為外部和內部通信信道。通過引入智能熵的概念，智能系統的智能演化過程可以看作解析信道傳遞的信息，不斷提升智能熵的過程。在特定環境和給定任務的前提下，智能熵存在上界並且該上界可以由外部信道容量嚴格界定——從而引入智能容量的概念。
AlphaZero系統中，兩個對弈的智能體是在協同演化，通過迭代編解碼試圖逼近智能容量。因此，可以將其建模為經典的Turbo編碼和迭代解碼架構，並且已經有EXIT-chart這一經典量化分析工具，可用於其學習演化過程的量化分析。

最後，本文基於上述認識，給出了如何構建強人工智慧的理論和應用方面的粗淺認識，供後續深入研究。

一、簡介

在圖1中，我們將(3)中提出的通用智能通信模型(UICM)應用到AlphaZero上。具體而言，AlphaZero中有兩個智能體可以自對弈，並且它們通過環境彼此交互，例如19*19棋盤。每個智能體在做出決定和採取下一步行動之前，觀察其對手的移動，評估棋盤的情況，識別模式並預測未來的行動。信息交換和處理流程等價於智能體A和智能體B之間的雙向交互香農通信模型，其中通信信道是棋盤，DecX_Ext是外部信道解碼器，SrcX和DesA是信息源和信息宿，FX是反饋學習通路，基於歷史經驗所更新的DesX也可以促進SrcX的演化，支撐更有效的棋路（行動）。因此兩個自對弈AlphaZero智能體的感知和行為可以被建模為解碼器和編碼器，實現智能體和環境之間的交互。