引言

2016 年 3 月，Deepmind科研團隊的圍棋程序AlphaGo以 4∶1 的成績戰勝韓國圍棋世界冠軍李世石，這一研究成果在全球範圍內引起巨大轟動，人工智能研究再一次吸引了世界的目光。在攻克圍棋這一艱鉅任務之後，Deepmind將研究重點轉向更加複雜的領域——多智能體博弈遊戲，並與美國電子遊戲公司暴雪娛樂（Blizzard Entertainment）合作，在星際爭霸 II 的遊戲環境基礎上開發了可進行更高水平人工智能研究的學習環境。鑑於該領域聚集了當前人工智能研究領域最具挑戰的難題，國內外衆多科研單位也競相投入到這一領域當中。多智能體博弈遊戲不僅在人工智能研究領域極具研究價值，其在社會管理、智能交通、經濟、軍事等領域同樣具有巨大的潛在應用價值。

對於當前狀態或動態變化既無完美信息又無完整信息可用的複雜動態環境，給人工智能研究帶來顯著挑戰。現實社會中很多大型、複雜的動態環境問題如路面交通系統、氣象預報、經濟預測、智慧城市管理、軍事決策等均是實例。然而，對這些實際問題進行建模仿真存在很大困難。與此同時，一系列實時策略遊戲提供了與真實環境相似的、非完美和非完整信息、長遠規劃、複雜問題決策的仿真環境。這些實時策略遊戲環境既能模擬現實問題的關鍵難點，又具有可準確評估、迭代迅速、便於交互和佈署、可重複等特點，爲解決實際問題提供了絕佳的研究平臺。因此，基於實時策略遊戲環境的研究工作對人工智能技術的發展和解決複雜的實際問題都有重要意義。在衆多的研究平臺中，星際爭霸以其豐富的環境信息、逼真的環境場景等特點成爲常用的理論研究和方法驗證平臺。

實時策略遊戲——星際爭霸具有實時對抗、巨大的搜索空間、非完全信息博弈、多異構智能體協作、時空推理、多複雜任務、長遠全局規劃等特點，同時這些也是人工智能領域極具挑戰的難題。自星際爭霸第一版遊戲於 1998 年正式發佈以來，不少研究者將其作爲人工智能研究環境進行了大量的研究。2010 年開始，一些星際爭霸人工智能遊戲程序國際競賽開始舉辦，大量人工智能研究和應用成果開始發佈。2016 年開始，深度學習在星際爭霸中的應用展現出強大的信息處理和決策能力，自此之後更多的深度學習和深度強化學習算法被應用到該研究領域。基於星際爭霸進行的一系列人工智能研究極大促進了機器學習、深度學習、博弈論、多智能體協作策略等研究領域的發展，對與星際爭霸相關的研究成果進行總結，特別是近兩年產生的新的研究理論和成果進行梳理，有助於把握該研究領域的研究進展和動向，爲與該領域相關的研究提供參考。

綜上，本文主要開展了以下幾方面的工作。首先介紹星際爭霸遊戲環境並分析其給人工智能研究所帶來的挑戰。接着，對現階段星際爭霸相關研究單位研究成果進行介紹，並對該領域的相關研究方法進行了分類。在此基礎上，列舉了與星際爭霸人工智能研究相關的資源，包括研究平臺、數據集以及自主遊戲程序競賽。最後，對星際爭霸相關領域未來可行的研究方向進行了預測。

PART02星際爭霸和人工智能

實時策略遊戲——星際爭霸

星際爭霸是暴雪娛樂公司發佈的一款極爲經典的多角色實時策略遊戲，目前主要有兩版。自主遊戲程序競賽基於 1998 年發行的第一版遊戲環境，如圖 1。2010 年發行的第二版遊戲以其更爲細緻逼真的遊戲環境和新的競技模式更受玩家的歡迎，如圖 2。

圖1　星際爭霸I競賽環境

圖2　星際爭霸II遊戲環境

星際爭霸提供三種類型的角色供玩家選擇：人族（Terran）、蟲族（Zerg）、神族（Protoss）。每個種族均包括多種生命角色、戰鬥裝備、功能建築等多類型單元。三種角色各具特色：

人族：人族單元靈活、多樣，其平衡了蟲族和神族的特點，是兩者性能的均衡。其作戰單元和建築有陸戰隊員、攻城坦克、巡洋艦、導彈發射塔等。

蟲族：蟲族繁衍迅速，需要的資源少，單位能力弱但速度快，常以成羣的形式以數量佔據對抗優勢。其作戰單元和建築有小狗、蟑螂、飛龍、孢子塔等。

神族：神族繁殖率不高，但單元科技水平很高、能力強，因此需要的資源也多，常以策略的質量取代數量佔據對抗優勢。其作戰單元和建築有狂熱者、聖堂武士、鳳凰戰機、光子炮等。

在多人對抗模式中，玩家需要收集儘可能多的礦物、天然氣或零散的獎勵等資源來建造更多的生產、防禦等建築物和生產更多的作戰單元並提升建築單元和作戰單元的技能等級，以最短的時間消滅敵方來贏得勝利。

星際爭霸研究的難點及其對人工智能研究的挑戰

與棋類遊戲相比，多智能體實時策略遊戲相關研究更難，主要體現在以下幾點。

（1）多玩家共存、多異構智能體合作。與棋類遊戲博弈雙方交替進行動作不同，實時策略遊戲中多玩家同時推動遊戲情節發展，不同的玩家可以同時進行動作。遊戲中有不同的角色單元和功能建築，如何更好地發揮每個單元的功能也是需要考慮的問題。

（2）實時對抗及動作持續性。實時策略遊戲是“ 實時”的，意味着玩家需要在很短的時間內進行決策並行動。與棋類遊戲中玩家有幾分鐘的決策時間不同，星際爭霸遊戲環境以 24 幀/秒頻率改變，意味着玩家可以以最高不到 42 毫秒的頻率進行動作。若以環境改變每 8 幀玩家進行一個動作的平均水平來看，玩家仍需要以每秒 3 個動作的頻率進行博弈。不僅如此，玩家輸出的動作有一定的持續性，需要在一定的時間持續執行，而非棋類遊戲玩家的動作是間斷的、突發的、瞬時的。

（3）非完整信息博弈和強不確定性。多數實時策略遊戲是部分可觀測的，玩家僅能觀察到自己已經探索的部分地圖情況。在星際爭霸中，因爲有戰爭迷霧的存在，玩家只能看到自己所控制的遊戲角色當前所處環境的情況，其它環境信息無法獲知。而棋類遊戲玩家可以獲取全棋盤的情況。多數實時策略遊戲具有不確定性，即決策過程中採取的動作都有一定概率促成最後的勝利。

（4）巨大的搜索空間及多複雜任務。實時策略遊戲更復雜，其在狀態空間的規模上和每個決策環節可選擇的動作序列均非常巨大。例如，就狀態空間而言，一般的棋類遊戲狀態空間在 1050左右，德州撲克約爲 1080，圍棋的狀態空間爲 10170。而星際爭霸一個典型地圖上的狀態空間比所有這些棋類的狀態空間都要大幾個量級。以一個典型的 128×128 像素地圖爲例，在任何時候，地圖上可能會有 5~400 個單元，每個單元都可能存在一個複雜的內在狀態（剩餘的能量和擊打值、待輸出動作等），這些因素將導致可能的狀態極其龐大。即便是僅僅考慮每個單元在該地圖上可能的位置，400個單元即有（128×128）400=16384400≈101685種可能。另一種計算複雜度的方式以bd來計算遊戲的複雜度，其中國際象棋b≈35，d≈80，圍棋b≈30~300，d≈150~200，而星際爭霸b的範圍是1050~10200，d≈36000。

多智能體實時策略遊戲的這些突出難點給該領域人工智能研究方法帶來巨大挑戰。文獻［2］將本領域研究中的挑戰總結爲規劃、學習、不確定性、時空推理、領域知識開發和任務分解六個方面。在此基礎上，我們將當前研究中的挑戰分爲多尺度規劃與多層次決策一致性、多途徑策略學習、降低不確定性、空間和時間上的多模聯合推理、領域知識開發和多層次任務分解六大挑戰。本領域研究難點與研究挑戰的對應關係如圖3所示。

圖3　多智能體實時策略遊戲存在的難點與人工智能研究挑戰的對應關係

（1）多尺度規劃與多層次決策一致性。一方面，由於多智能體遊戲中巨大的狀態空間和可輸出動作，使得一般的對抗規劃方法如博弈樹搜索已不能滿足需求，多智能體實時策略遊戲需要多尺度的規劃。另一方面，實時約束爲多異構智能體大量的低層次動作規劃與高層次全局決策目標的一致性耦合帶來很大困難，難點在於設計一種既考慮複雜多目標優化又兼顧計算效率的方法，最終形成多智能體整體行動的實時一致性。

（2）多途徑策略學習。除對抗規劃技術之外，一些研究團隊將注意力放在多途徑策略學習技術上，其中包含三種策略學習問題。一是提前學習，即開發已有數據，如已有遊戲回放、已有的針對特定地圖的適當策略等。難點在於策略的抽象表達方法以及在實際博弈過程中如何合理選擇並應用這些策略。另外，這些針對特定環境的策略是否具有普適性也有待驗證。二是遊戲中學習，即在博弈過程中在線學習提升遊戲水平，這些技術涉及到強化學習方法及對手建模等，其難點在於狀態空間巨大且部分可觀測。三是遊戲間相互學習，即如何將從一個遊戲中學到的知識用在另一個遊戲中以提升勝率。一些工作是利用簡單博弈論方法從預先定義的策略池中挑選合適的策略，但這些固定的策略無法根據具體對抗環境進行自適應調整和策略提升，因此也限制了對抗的競技水平。

（3）降低不確定性。這裏的不確定性主要包括兩個部分。一是由於遊戲是部分可觀測的，玩家無法看到全局的情況，因此需要去偵察來瞭解更多的情況。難點在於如何設計具有自適應能力的好的偵察策略和知識表示來降低不確定性。除此之外，由於敵人的策略也是未知的，這種不確定性造成決策的無目的性，不能很好地根據敵人的策略適時調整對抗策略，所以需要通過好的預測模型預測對手的意圖。

（4）空間和時間上的多模聯合推理。空間上的推理包括不同功能建築建造的位置、防禦攻擊建築建造的位置以及對戰中各作戰單元所處的位置等應該如何合理安排。除此之外，各功能單元在不同的地形上可以發揮出不同程度的攻擊、防禦等功能，如坦克在高地勢時攻擊範圍更大等，這些也是空間推理應考慮的因素。時間推理是指玩家既要在當前戰鬥中採取戰術戰勝敵人，又需要在更高水平上長遠地規劃如何安排自己的資源、建造功能建築或升級、策略轉換等。有些策略是短時間就可以看到效果的，而有些策略需要較長的時間才發揮作用，因此需要長遠全局規劃和短期局部規劃的統一。其中長遠策略規劃中由於一些策略在很長一段時間後才發揮作用，導致智能體在學習過程中不能很好地從長時間的延遲獎勵中學到有用的策略。另外，由於空間推理和時間推理是兩種不同模式的推理形式，需要構建兩種模式相融合的推理策略。

（5）領域知識開發。實時策略遊戲已經發展了多年，產生很多可利用的戰術動作、規律和策略等數據。充分利用該領域的已有知識可極大提升自主遊戲程序的競技水平。該領域早期研究者將從數據中總結的策略編寫成代碼，遊戲程序可以從這些編好的代碼中選擇。近兩年大量的遊戲數據集可供機器學習提取有用信息。如何從大量的數據中提取有價值的策略，形成自主遊戲程序的決策網絡，仍存在極大挑戰。

（6）多層次任務分解。多層次任務分解是指將多智能體博弈遊戲分解成不同的子任務，通過分別解決這些子任務來降低整體解決的難度。主要可分解成以下幾部分：策略，即高水平決策，如全局戰役主要用什麼策略；戰術，即當前策略、短時策略，如一場戰鬥中採取何種策略；反應控制，即戰鬥、戰術實施，如戰鬥中應採取何種走位、用哪種武器攻擊等；地形分析，主要包括敵我雙方所處位置、戰鬥地形、可通過道路、地勢等信息；智能收集信息，主要包括敵方建造了何種建築、生產了哪種類型的戰鬥單元、正在採取什麼樣的策略等信息。對比而言，人類玩家在玩星際爭霸時，決策常分爲微觀操作和宏觀大規模操作。人們不需要進行復雜的多層次任務分解，只需根據具體遊戲環境進行微觀或宏觀操作即可。

PART03相關研究和成果

人工智能和遊戲的研究歷史可以追溯到 1950年。自 1997 年 5 月“ 深藍”擊敗國際象棋大師卡斯帕羅夫起至今，已有大量的遊戲程序戰勝了經典遊戲中的世界冠軍，如跳棋、奧賽羅和拼字遊戲。一些佈署深度神經網絡的“ 大腦”，甚至在極其複雜的遊戲中擊敗了世界冠軍，如圍棋。

從 2000 年左右開始，人工智能研究人員開始關注複雜的戰略模擬遊戲。在早期的研究中，一些人認爲，智能體需要複雜的表示和推理能力才能在這些環境中勝出，而構建上述能力是具有挑戰性的。研究人員通過抽象狀態縮小決策搜索空間、遺傳算法學習遊戲規劃、使用領域知識消除靜態對手假設、從專家示範中提取行爲知識等方法降低搜索的難度，爲自主遊戲程序賦予更強的能力。

在衆多實時策略遊戲人工智能研究環境中，星際爭霸相比之前大多數工作更具挑戰性。該遊戲自 1997 年出現至今吸引了大量人類玩家，並舉辦了各種級別和類型的國際性賽事。2010 年起，以AIIDE、SSCAIT、CIG爲代表基於星際爭霸I環境的各類人工智能比賽開始舉辦，阿爾伯塔大學、斯坦福大學、Facebook等衆多高校和研究單位投入其中。

這期間的人工智能算法一般被稱爲經典人工智能程序，大多數基於規則。這類自主遊戲程序可以打敗遊戲內置程序，但是遠遠比不上人類專業選手，甚至連普通選手也打不過。2016 年開始，以深度學習和深度強化學習爲主的智能體自主學習方法開始應用於該領域，此類算法被稱爲現代人工智能程序。Deepmind和暴雪聯合開發了基於星際爭霸II的深度學習研究環境SC2LE。國內外衆多極具實力的科研團隊參與其中，國外有如Deepmind、Facebook、阿爾伯塔大學、牛津大學、倫敦大學等，國內如阿里巴巴、騰訊以及中國科學院自動化研究所等也進行了相關研究。2009 年開始，星際爭霸相關研究成果開始發表。我們選出有代表性的成果進行統計（詳見表1），並在下一章節中進行分類分析。

表1　星際爭霸主要研究單位和方法

PART04研究方法

本文將相關領域的研究方法分爲基於規則、經典機器學習、深度學習、強化學習及其它有潛力的發展方向五類，並將指出這些方法適用於解決哪一類挑戰。

基於規則

基於規則的方法用於解決策略學習和領域知識利用的挑戰。這些方法將人類玩家在實踐中總結出的規則編寫成程序，作爲自主遊戲程序的一個策略模塊，遊戲程序在遊戲進行時根據遊戲的情況選擇對應的策略執行即可。Certicky M等根據熟練玩家用建築物阻擋敵人進入的策略編寫了自主遊戲程序。提供一個準備使用的聲明式解決方案，採用答案集編程（ASP）的範例，使自主遊戲程序也具備合理佈局建築物來阻止敵人進入的技能。Weber B等以反應性計劃語言ABL構建了在遊戲中指揮個體單位的遊戲程序，這種反應式規劃是控制低級單位命令的合適技術，部分減少了玩家需要控制的個體單位。

經典機器學習

我們將除深度學習、強化學習和深度強化學習之外的機器學習方法歸爲經典機器學習方法。根據各方法對應解決多尺度規劃與多層次決策一致性、多途徑策略學習、降低不確定性以及領域知識開發利用四類挑戰，將經典機器學習方法分爲快速搜索與規劃、對手策略建模和作戰模型、降低不確定性、行爲知識提取和利用四類方法。

快速搜索與規劃

規劃與決策問題主要關注自主遊戲程序不同層次的對抗策略如何優化生成。David C在星際爭霸人工智能競賽中使用在線的啓發式搜索算法，該搜索算法能夠實時生成專業人類玩家水平的構建命令。其爲考慮時長、持續時間、投資組合的貪婪搜索分別設計了三種單位微觀管理算法，並將分層投資組合搜索用於搜索巨大的遊戲空間。

Aha D W等在搜索內部空間的遺傳算法以及偏向子計劃檢索的加權算法基礎上改進，引入一個計劃檢索算法，消除了前兩種方法假設靜態對手的不足，由此可將學習的知識擴展到具有完全不同策略的對手。Zhen J S等使用擴展拓撲的神經進化（NEAT）算法，以增強人工智能遊戲程序的適應性，實現快速、實時評估和反應。

對手策略建模和作戰模型

策略學習問題主要關注如何從回放數據中學到有用的知識。Weber B G用數據挖掘方法從大量的遊戲日誌中學習高水平玩家的策略，併爲遊戲中的對手建模，以此在遊戲中檢測對手策略，預測對手什麼時候執行策略並做出行動。Uriarte A等從回放數據中學習作戰模型並用它們來模擬實時策略遊戲中的戰鬥。

降低不確定性

不確定性問題一般可由爲對手建模、爲遊戲建模的方法來進行預測，或者使用偵察算法等獲取更多的信息來降低不確定性。Gabriel S等通過使用貝葉斯建模來替代布爾值邏輯，處理信息的不完整性和由此產生的不確定性。通過機器學習從高水平玩家的回放數據來對動態對手建模，進行戰略和戰術適應。這些基於概率的玩家模型可以通過不同的輸入應用於決策，由此解決不確定情況下的多尺度決策。Park H使用偵察算法和機器學習算法來預測對手的攻擊時機。Hostetler J等提出動態貝葉斯網絡策略模型，該模型能夠從現實的觀察中推斷遊戲的未觀察部分。Cho H C通過預測對手的策略改變命令順序。Erickson G提出預測遊戲中哪個玩家獲勝的模型。Helmke I等用簡單的戰鬥近似模型預測不涉及微觀管理的戰鬥。Uriarte A等提出了雙人博弈遊戲的戰鬥模型，用來模擬遊戲中的戰鬥，並分析如何從回放數據中學習作戰模型。

行爲知識提取和利用

領域知識開發和利用目的是更好地利用已有的策略知識和遊戲數據。Mishra K等提出基於案例的實時計劃和執行方法。通過以個案的形式從專家示範中提取行爲知識，將這些知識通過基於案例的行爲生成器調用形成合適的行爲，來實現當前計劃中的目標。Synnaeve G等主張通過人類或遊戲程序玩家對錄製的遊戲完整狀態進行探索，以發現如何推理策略。他們把軍隊組合起來，以此減少高斯混合程度，達到在組的水平上進行戰略推理的目的。

深度學習

基於深度學習的方法用於從當前大量的高水平玩家數據中學習策略，以解決領域知識開發利用的挑戰。Sukhbaatar S等提出一種深度神經模型CommNet，它通過使多智能體間保持連續通信來完成合作任務。該網絡模型可使智能體學習彼此溝通的能力，相對於非交互智能體產生了更好的表現。Justesen N等通過深度學習直接從遊戲回放中學習星際爭霸中的宏觀管理決策。從高水平玩家的 2005 個回放中提取的 789571 個狀態動作來訓練神經網絡，預測下一個構建動作。通過將訓練好的網絡整合到一個開源的星際爭霸自主遊戲程序UAlbertaBot中，該系統可以顯著地超越遊戲內置的自主程序，並以固定的急速策略進行對抗。

強化學習

強化學習和深度強化學習一般用於解決策略學習中的挑戰。我們將使用強化學習或深度強化學習的方法按照算法內容分爲Q學習及其變體、Actor-Critic結構及其變體以及分佈式多智能體強化學習三類。

Q學習及其變體

Stefan W等應用Q學習和Sarsa算法的變體，使用資格痕跡來抵消延遲獎勵的問題。其設計了一個能夠在複雜的環境中以無監督的方式學習的智能體，替換非自適應的、確定性的遊戲人工智能程序來執行任務。針對最大化獎勵或學習速度兩個不同的側重點，他們證明一步式Q學習和Sarsa在學習管理戰鬥單元方面是最好的。Mnih V等提出深度Q網絡方法，可以使用端到端的強化學習直接從高維視覺輸入中學習成功的策略。該方法在Atari遊戲上被證明是有效的，這爲用深度強化學習解決多智能體的遊戲提供了思路。Kempka M等在一個三維第一人稱視角環境——VizDoom 中驗證了視覺強化學習的可行性。在一個基本的移動及射擊任務和一個更復雜的迷宮導航兩種場景中，使用具有Q學習和經驗回放的深度卷積神經網絡，都能夠訓練出展現人類行爲的自主遊戲程序。Usunier N等提出深度神經網絡控制器從遊戲引擎給出的原始狀態特徵來處理微觀管理場景的方法，解決了軍隊成員在戰鬥中短期低水平的控制問題。同時提出了一個結合策略空間直接探索和反向傳播的啓發式強化學習算法，該算法使用確定性策略來收集學習的痕跡，這比 “ 野獸般的探索”更爲有效。

Actor-Critic結構及其變體

Peng P等在處理星際爭霸中協調多個戰隊作戰打敗敵人任務時，爲了保持一個可擴展而有效的通信協議，引入了一個多主體雙向協調網絡——BiCNet。該網絡含有一個向量化擴展的Actor-Critic公式，可以處理對戰雙方不同類型的任意數量的智能體的戰鬥。在沒有任何監督如人類示範或標記數據的情況下，BiCNet可以學習各種經驗豐富的遊戲玩家常用的高級協調策略。Foerster J等提出了一種反事實多智能體（COMA）策略梯度的多智能體 Actor-Critic 方法。COMA使用集中的Critic來估計Q函數，用分佈式的Actor來優化智能體的策略。爲了解決多智能體信用分配的挑戰，其使用了一個反事實的基線，邊際化一個智能體的行爲，同時保持其他智能體的行爲固定。在具有顯著局部可觀的分佈式多智能體情況下，COMA方法與其它多智能體ActorCritic方法中最先進的集中控制器最好的表現對比，發現其平均性能顯著提高。Vinyals O等介紹了適用於星際爭霸II領域的典型深度強化學習智能體的初始基線結果。在迷你遊戲中，這些智能體可以通過學習達到與新手玩家相當的遊戲水平。但是，在完整遊戲的訓練中，這些智能體無法取得重大進展。

分佈式多智能體強化學習

Lanctot M等爲解決多智能體強化學習（MARL）中使用獨立強化學習（InRL）策略在訓練期間可能會過擬合其他智能體策略的問題，引入了一個新的度量即聯合政策關聯，來量化這種影響。同時提出一種通用MARL算法，該算法基於對深度強化學習生成的策略混合的近似最佳響應以及經驗博弈分析來計算策略選擇的元策略。Max J等在第一視角多人遊戲中採用雙層優化的方法。一羣獨立的強化學習智能體通過上千種並行遊戲以團隊的形式在隨機產生的環境中與對手進行博弈。其中這羣智能體中每個個體學習其自己的內部獎勵以補充來自獲勝的稀疏延遲獎勵，並使用新穎的時間分層表示來選擇動作，使得智能體可以在多時間尺度進行推理。

其它有潛力的方向

（1）子博弈。Brown N等提出用不完美信息博弈中子博弈方法解決分佈式博弈和全局目標統一的問題。該方法可用於解決多智能體實時策略遊戲中分佈式局部決策與團隊目標統一的問題。

（2）增量學習。Xiao C J 等提出的增量記憶蒙特卡洛搜索樹方法，爲多智能體決策系統通過不斷積累來提升決策能力提供潛在的可行方向。

（3）博弈論。Fang F等用博弈論系統預測可能的襲擊地點，打擊偷獵行爲。Tuyls K等讓智能體在非對稱博弈中找納什均衡。基於博弈論對多智能體博弈遊戲分析，或許可以從更高水平的視野找到解決辦法。

PART05相關資源

本章介紹與星際爭霸相關的資源，包括開源研究平臺、開源數據集和人工智能程序競賽。

開源研究平臺

完整星際爭霸學習環境

（1）SC2LE。Deepmind和暴雪在 2017 年聯合推出基於星際爭霸II的人工智能學習環境SC2LE。Lanctot M等描述了星際爭霸II領域的觀察、行動和獎勵規範，並提供了一個開源的基於Python的接口來與遊戲引擎進行通信。除了完整的遊戲地圖之外，還提供了一套迷你遊戲，專注於星際爭霸 II遊戲中的不同任務。

（2）TorchCraft。Synnaeve G等開發了TorchCraft，一個通過在機器學習框架Torch中控制遊戲來實現諸如“ 星際爭霸：母巢之戰”等實時策略遊戲深度學習研究的庫。

類似的AI學習環境

（1）輕量級星際爭霸研究環境

ELF。Tian Y等提出一個覆蓋範圍廣、輕量級和靈活的基礎強化學習研究平臺——ELF。ELF包含三種遊戲環境（微型實時策略、奪旗和塔防）的高度可定製的實時策略引擎。其中“ 微型實時策略”作爲星際爭霸的微型版本，捕捉了關鍵的遊戲動態，可在筆記本電腦上以每秒 40K幀速運行。該系統與現代強化學習方法結合使用時，可用 6 個CPU和 1 個GPU的計算硬件在一天時間內完成端到端的完整遊戲的自主遊戲程序訓練。此外，該平臺在環境-智能體通信拓撲、強化學習方法的選擇、遊戲參數的變化等方面是靈活的，並且可以遷移到現有的基於C/C++的遊戲環境，如ALE。美國紐約大學和Facebook AI Research設計了一個簡單的 2D遊戲環境，用強化學習在該環境上佈署各種神經模型，在該環境中訓練的模型可直接應用於星際爭霸遊戲。

（2）其它相似研究環境

VizDoom。VizDoom是一個以第一人稱視角多人射擊類 3D遊戲Doom爲基礎、可進行以像素信息爲輸入的強化學習方法研究平臺。Kempka M等在該環境中驗證了視覺強化學習的可行性。在一個基本的移動及射擊任務和一個更復雜的迷宮導航兩種場景中，使用具有Q學習和經驗回放的卷積深度神經網絡，都能夠訓練出展現人類行爲的有能力的自主遊戲程序。

ALE。Naddaf Y介紹了街機遊戲學習環境——ALE。ALE爲數百個Atari 2600 遊戲環境提供界面，併爲評估和比較強化學習、模型學習、基於模型的規劃、模仿學習、遷移學習等方法提供了一個嚴格的測試平臺。ALE提供的評估方法可以在超過 55 個不同的遊戲中報告驗證結果。

Gym。由OpenAI開發的強化學習研究環境和工具包。

Minecraft。微軟開發了基於Minecraft（我的世界）遊戲的人工智能研究平臺。

另外，還有如Deepmind的Psychalab心理學實驗室開發的第一人稱視角3D強化學習研究環境等。

開源數據集

基於星際爭霸II的數據集

SC2LE。Deepmind和暴雪在推出基於星際爭霸II的人工智能深度學習研究環境SC2LE的同時，對於完整的遊戲地圖，還提供了來自人類專業玩家的遊戲回放數據集，並給出從該數據訓練的神經網絡來預測遊戲結果和玩家行爲的初始基線結果。

MSC。中科院自動化所的張俊格等發佈了基於SC2LE平臺的新型數據集MSC。MSC由良好設計的特徵向量、預定義的高水平行動和每個匹配的最終結果組成。爲便於評估和比較，他們還將MSC劃分爲訓練、驗證和測試集。除了數據集之外，他們還提出了基線模型，並提出了全局狀態評估的初始基線結果，構建了命令預測。爲了對星際爭霸II的宏觀管理進行研究，還介紹了數據集的各種下游任務和分析。

基於星際爭霸I的數據集

Facebook的Lin Z等開發了基於星際爭霸I的數據集。Synnaeve G等提供了包含大部分遊戲狀態（不僅是玩家的命令）的星際爭霸遊戲數據集。Alberto Uriarte開發了持續更新的基於星際爭霸I的高水平玩家離線數據集。

競賽

AIIDE

AAAI 人工智能和互動數字娛樂會議（AAAI Conference on Artificial Intelligence and Interactive Digital Entertainment，AIIDE）由人工智能促進協會（AAAI）贊助，每年舉行一次。會議展示關於娛樂中智能系統建模、開發和評估的跨學科研究，重點關注商業計算機和視頻遊戲。該會議長期以來一直以電腦遊戲中的人工智能研究爲特色，並發展到遊戲以外的娛樂領域，會議上舉行星際爭霸人工智能自主遊戲程序競賽。會議從 2005 年開始，已經舉辦了 14 屆。

CIG

IEEE 計算智能與遊戲大會（IEEE Conference on Computational Intelligence and Games，CIG）是將計算和人工智能技術應用於遊戲的年度盛會。會議的領域包括適用於各種遊戲的各種計算智能和人工智能，包括棋盤遊戲、視頻遊戲和數學遊戲。於 2005 年開始作爲研討會，自 2009 年開始作爲會議，每年召開一次。該會議上進行星際爭霸人工智能自主遊戲程序比賽。

SSCAIT

學生星際爭霸 AI 錦標賽（Student Starcraft AI Tournament & Ladder）是一項教育活動，於2011 年首次舉辦，是主要面向學生（非學生也允許提交）人工智能和計算機科學的競賽。通過使用BWAPI提交用C++或Java編程的自主遊戲程序來進行一對一星際爭霸遊戲。

PART06未來研究趨勢

非完美信息下的多智能體博弈研究是當前衆多人工智能研究團隊努力攻克的難題，雖然有新的成果不斷產生，但直到目前，完整遊戲情況下，人工智能遊戲程序仍無法達到人類高水平玩家的水平。爲了達成這一目標，除了文章前述的研究方法之外，一些研究者將注意力放在多智能體分佈式決策上。分層和分任務決策對星際爭霸來說可能是一種發展方向，通過將對抗任務分不同的層次和拆分成不同的任務模塊，在小的任務範圍內進行學習，最終將這些模塊整合成一個完整的人工智能遊戲程序。另外，將博弈論作爲對抗分析的指導方法，會給該領域帶來新的解決思路。除此之外，模仿學習、遷移學習以及增量式學習也可能在該領域展現出好的效果。

多智能體對抗博弈策略在一些實際領域具有應用價值。其中簡單任務應用如追捕任務，即多機器人協同追捕“ 逃跑者”機器人。與之類似，有多機器人協同阻止入侵者的“ 疆土防禦”任務。機器人足球是更高水平的複雜任務，各足球機器人需要團隊協作採取策略與對手機器人團隊進行對抗，防守好自己的球門並儘可能多地進球得分。值得注意的是，當前多智能體對抗博弈策略研究在軍事領域受到重點關注。以美國軍方爲例，其連續幾年發佈的無人系統路線圖均將多無人系統在戰場中的協作作戰列爲重點發展方向，並進行了多項以多機器人系統或集羣作戰爲內容的軍事研究項目。另外，俄羅斯軍方已將多無人系統應用於實際戰場。

目前，多智能體博弈遊戲仍是一個開放的難題，人工智能遊戲程序還無法超越人類頂級玩家的水平。隨着人工智能技術的快速發展以及越來越多科研團隊投入其中，該領域將會有更多更震撼的成果陸續產生。

來源：無人系統技術

（本文爲網絡摘錄或轉載，版權歸原作者或刊登媒體所有。如涉及作品版權問題，請聯繫我們處理。）