乾明 岳排槐 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

要出大事了。

剛剛,DeepMind和暴雪聯合宣布,北京時間周五凌晨2點,公開展示AI打《星際爭霸II》(下稱星際2)的新進展!

屆時,將會在星際的Twitch頻道和DeepMind的Youtube頻道進行直播。

DeepMind CEO哈薩比斯說,星際2是一款複雜的實時戰略遊戲,對AI來說是一個長期的巨大挑戰。我們將展示我們的進步!你肯定不想錯過直播! :-)

消息一經放出,便在推特上引發了近千條轉發,以及激烈的討論。

不少網友都紛紛表示,要看!哪怕是上了一天班之後,熬夜也要看!絕對不容錯過。

甚至在Reddit論壇上給自己設提醒:兩天後提醒我!42小時後提醒我!

更有網友當場「深情表白」:當DeepMind宣布他們開始打星際的時候,我也開始玩了,只是為了更好地欣賞這種深奧的技術。

在一些人看來,這是一個時代的結束。最初,它們是為了我們的象棋&圍棋,現在是為了我們的星際爭霸。

怎樣迎接這樣的一個時代?有人說自己已經感覺到恐懼了。也有人為DeepMind的發展制定了規劃:第一步,精通星際;第二步,精通魔獸世界;第三步,精通企業戰略諮詢。

也不乏有好事者評論道,它跟OpenAI打Dota的AI相比怎麼樣?放一起「干架」肯定很精彩。

好事者問道:2019年DeepMInd和OpenAI會來一場嗎?

不過,也有一些網友不服,表示如果DeepMind能夠打贏職業選手,當場吃鞋!還引發了其他網友的附和。

還有專業的網友,在猜測DeepMind攻剋星際2究竟用了什麼技術。大家也可以一起來猜一猜,下面是他列出的選項:

  • PPO?
  • 蒙特卡洛樹搜索?
  • 生成模型?
  • 分散式強化學習?
  • 明確層級強化學習(Explicit Hierarchical RL)?
  • 用RNN搞定長距離依賴?
  • 上面這些混合一下?

AI打星際2難在哪裡

2016年11月暴雪嘉年華上,DeepMind工程師宣布了訓練AI打星際2的計劃。算起來到現在已經兩年多了。

DeepMind與暴雪合作的目標之一,就是開發一套足夠好的人工智慧系統,使之可以擊敗星際2人類選手。就像AlphaGo擊敗李世乭、柯潔一樣。

然而,最終的目標是將其中使用的技術應用到現實世界,而不是讓它始終停留在遊戲裡面。

「我們正在試圖理解人類以及我們大腦的工作方式。」暴雪首席軟體工程師Jacob Repp此前說,「如果我們能夠得到這種高質量的數據流——人類玩遊戲時的原始輸入以及由此產生的結果——那就能成為研究人們行為的有用數據。」

對人工智慧研究人員來說,星際2是個頗為有趣的挑戰。

與國際象棋或圍棋不同,星際玩家面對的是不完美信息博弈。「戰爭迷霧」意味著玩家的規劃、決策、行動,要一段時間後才能看到結果。

DeepMind團隊負責人Oriol Vinyals說,在星際2里一個玩家可能看到對手的偵察兵,然後又消失在視野中。對人工智慧來說,記住他們遇到的東西,並且理解這可能表明敵人正在某個地方修建基地,這種記憶不僅需要保存,還要在未來針對某個信息調取出來。

「在星際2中,這非常重要,但卻很微妙,可以將未來與過去聯繫起來。」他說,「很難建立因果關係,因為遊戲中會發生很多事情。」

連著名的AlphaGo「人肉臂」黃士傑,也已經轉到星際2的項目中。很多人認為在即時戰略遊戲中,AI的反應速度會成為極大的優勢,但事實並非如此。

黃士傑此前解釋稱,圍棋只有361個落子點,對AI來說全部遊戲內容都是可見的。但星際2遊戲有大量全黑的地圖,玩家需要探索地圖以及偵查對手動向,才能制定相應的策略。

幾乎每次滑鼠移動,都能視為一次落子。這種不確定性讓星際2對AI來說,難度比圍棋要高很多。

這有一段6分鐘的視頻,配好了中文字幕,能更直觀一點的解釋AI打星際2到底是怎麼回事。

AI打星際2是怎麼回事?6分鐘講清楚_騰訊視頻?

v.qq.com
圖標

其中重點提到了AI打星際的三大難題:

1、不完美信息博弈

2、需要同時控制上百個單位

3、最難的是,需要制定長期策略

星際2的AI大戰進展

為了教AI打星際2,暴雪和DeepMind在2017年8月,發布了星際2中加速AI研究的工具SC2LE。GitHub的傳送門在這裡:github.com/Blizzard/s2c

工具包推出同時,他們還開源了一套星際2的迷你遊戲,是星際2部分操作的抽象產物,AI能從中練習移動、採礦、建造單位等等技能。

到2018年6月,DeepMInd終於宣布,用關係性深度強化學習搞定了這些小遊戲,在六個小遊戲中達到了當前最優水平,其中4個還超過了大師級人類玩家。

想更深入了解可以閱讀這篇論文:

Relational Deep Reinforcement Learningarxiv.org/abs/1806.0183

不過,在星際2上有野心的不止DeepMind。

去年9月,騰訊AI Lab發布論文稱,他們構建的AI首次在完整的蟲族VS蟲族比賽中擊敗了星際2的內置機器人Bot。雖然不是嚴格意義上的「自學」,AI還高度依賴人為歸納的信息,但迄今為止,這是我們在星際2項目上見到的最有建樹的成果之一。

騰訊實際上開發了兩個AI,基於扁平化動作結構的深度強化學習智能體TStarBots1,和基於分層動作結構規則控制器的智能體TStarBots2。

這兩個AI都能在完整對戰中擊敗等級1~10的遊戲內置機器人(1v1蟲族對抗,地圖:深海暗礁??),其中等級8、等級9和等級10的機器人都是作弊級AI,它們享有額外的視野和晶體礦、氣礦資源。

TStarBots1擁有一系列扁平化的大型操作,在這個基礎上,它用強化學習訓練智能體採取策略;而TStarBots2的操作控制也是人為編碼的,但它有可以自行組合的大型、小型混合層次化操作集。

另外去年11月,塔爾圖大學也開源發布了星際2深度強化學習(DRL)智能體Reaver。這種模塊化的框架主要用於訓練星際2的各種任務,提供比大多數開源解決方案更快的單機環境並行化能力。

Reaver可適應多種環境,除了用於星際2的SC2LE外,還支持其他強化學習任務上常用的Gym、Atari和Mujoco。它用簡單的Keras模型來定義神經網路,配置和共享配置也非常方便。

最重要的是,Reaver的訓練規模親民到爆炸。在普通的4核CPU的筆記本電腦上,每秒採樣率可以達到5K,10秒內就能學會那個立杆子的遊戲CartPole-0。

實際上,還有一批人在研究如何用AI攻剋星際(不是星際2)。

如果你感興趣,可以看看我們此前的報道,這裡不贅述了。

最後,附上直播地址,別忘了定鬧鐘哦~

Twitch上的星際頻道:

twitch.tv/starcraft

DeepMind的YouTube:

youtube.com/c/deepmind

— 完 —

量子位 · QbitAI

?? ? 追蹤AI技術和產品新動態

戳右上角「+關注」獲取最新資訊↗↗

若本文有用請分享or點贊吧~比心?

推薦閱讀:

相关文章