AlphaZero中單個智能體的目標是獲得更多對手信息,從而採取更有效的行動。具體而言,在兩個智能體的「零和博弈」中,智能體A解碼的關於智能體B的源信息量表示為IB-A,智能體B解碼的關於智能體A的源信息量表示為IA-B。智能體A佔主導地位的條件是IB-A >IA-B,即智能體A更高概率確定其對手的感知-行動策略,從而採取更有效的行動。
兩個對弈的智能體在AlphaZero的內部通信信道中協同進化,並且每個智能體之間相互迭代,解析來自外部和內部通信信道的信息。我們可以將每個智能體作為一個解碼器,作為資訊理論領域(3)中著名的Turbo解碼器的分量解碼器。