OpenAI 今日宣布,它們的遊戲人工智慧 OpenAI Five 將於 4 月 13 日與人類進行最終決戰,此次比賽的對手是 Dota 2 世界冠軍團隊 OG。

機器之心報道,參與:李澤南、李亞洲。

雖然在去年 8 月的 Dota2 國際邀請賽(TI8)上,OpenAI連續輸給 paiN 以及由大 B 神、xiao8、430、ROTK、狗哥這些中國 Dota 屆元老組成的戰隊,但 OpenAI 並沒有因為挑戰失敗而放棄嘗試。這一次他們直接選擇了與 TI8 上的冠軍團隊過招。

看來在最近 6 個多月的時間裡,人工智慧又學會了一些新的技術?

這次比賽的規則類似於 TI8 時 OpenAI Five 與職業戰隊的比賽:

  • 18 名英雄可選:斧王、水晶室女、死亡先知、撼地神牛、矮人直升機、巫妖、巫魔巫師、死靈法師、痛苦女王、剃刀、隱刺、影魔、斯拉克、矮人火槍手、斯溫、潮汐獵人、冥界亞龍、巫醫。鏡像匹配:瘟疫法師、矮人火槍手、冥界亞龍、水晶室女、巫妖。
  • 無聖劍、魔瓶
  • 無召喚物,無幻象
  • 無掃描

值得注意的是,TI8 比賽期間,去除掉了「5 個無敵信使」的限制,因為這個條件會極大的影響遊戲的真實性。

  • 本次 OpenAI Five Finals 賽事直播地址:twitch.tv/openai
  • 比賽時間:北京時間 4 月 14 日凌晨 2:30 分(美國太平洋時間 4 月 13 日 11:30)

OpenAI Five:挑戰人類的成與敗

人工智慧在圍棋上擊敗人類之後,很多技術人員就開始展望 AI 在視頻遊戲中的表現了。2017 年的 Dota2 國際邀請賽 TI7 上,OpenAI 推出的人工智慧橫空出世,在人類巔峰對決的比賽現場 1v1 打敗了世界頂級玩家。

在那場一對一表演賽中,OpenAI 的人工智慧打敗了 Danylo "Dendi" Ishutin,一名在職業生涯中贏得超過 70 萬美元獎金的職業玩家。OpenAI 的 bot 在第一場比賽開始約 10 分鐘打敗了 Dendi。在第二場比賽中 Dendi 放棄,並拒絕進行第三場比賽。

Dendi 在比賽前接受採訪,作為第一個在公開比賽中被 AI 擊敗的職業選手,他領教了人工智慧在單挑時的應變能力

單挑可能還不具有太多說服力,Dota2 是一個 5v5 的多人對戰遊戲,很快 OpenAI 就開啟了更為正式的「10 人對決」之旅。2018 年 6 月,這家公司提出的「OpenAI Five」又在 5v5 多人對局中擊敗了由前職業玩家、遊戲解說組成的天梯 6000 分級別戰隊,並宣布會於 TI8 上亮相和真正的職業選手過招,一時吸引了人們的關注。

Dota2 是目前全球最為流行,也最複雜的電子競技遊戲之一。其最負盛名的賽事「TI」每年都會吸引上千萬玩家的關注

面對 AI 的挑戰,人類躍躍欲試,在 TI8 上很多參賽隊伍都報名想參加 OpenAI Five 的比賽,OpenAI 遇到的第一個對手是來自巴西的戰隊 paiN,後者也是 TI8 決賽階段第一支被淘汰的隊伍。有了 AlphaGo 的「前車之鑒」,人們紛紛預測 AI 穩贏,然而人類職業玩家卻讓 OpenAI 嘗到了失敗的滋味。

paiN 選擇了開霧直接衝進天輝野區,四人圍攻落單的潮汐,搶到了一血。OpenAI 也展示出了人工智慧「不聰明」的一面,在塔下不斷插眼。雖然在隨後的比賽中雙方有來有往,但人類玩家逐漸掌握了計算機的套路,在 50 分鐘的比賽後打爆了對方的水晶。

在 Open AI Five 對陣 paiN 的比賽中,人工智慧對於自己獲勝概率的預測

這場失利讓大家對於 AI 的期待有所下降,隨後在第二場比賽中,由 Burning、Xiao 8、430、ROTK 和 Sansheng 組成的「中國 Dota2 元老隊」也順利擊敗了 OpenAI Five,讓人工智慧的 TI8 之旅最終以失敗告終。

第二場比賽中,人類用了 45 分鐘拿下勝利,人頭比 48 比 43

解決 5v5 的核心問題

雖然首次挑戰職業玩家沒有成功,但 OpenAI Five 的嘗試為人工智慧領域技術的發展有著很大意義——它解決一個重要問題:強化學習在如此複雜、需要長期策略的遊戲環境下是否依然奏效?

通過自我對抗學習,OpenAI Five 每天相當於玩 180 年的遊戲。訓練上,它使用 256 塊 GPU、12 萬 8000 個 CPU 核心使用近端策略優化(Proximal Policy Optimization)方法進行訓練。當每個英雄使用單獨的一個 LSTM,模型就可以在沒有人類數據的情況下學到可識別的策略。這表明強化學習即使沒有根本性的進步,也能夠產生大規模但也可接受的長期規劃。這出乎了 OpenAI 研究人員起先的預料。

為了訓練每個英雄,OpenAI 使用了兩種機器學習技術:長短期記憶網路(LSTM)和近端策略優化(Proximal Policy Optimization)。

為什麼使用 LSTM 其實很好理解:打 Dota2 需要長期策略,敵方英雄的每一個當前行為都會對之後的行為產生影響。LSTM 是一種循環神經網路(RNN),它比普通的 RNN 更適合於處理和預測時間序列中間隔和延遲非常長的重要事件。LSTM 有一個叫做 Cell 的元素,能夠分辨出輸入的信息是否有用,是否需要記住。

每一個 bot 的神經網路包含一個單層的、擁有 1024 單位的 LSTM,觀察遊戲的局勢然後做出相應的行為。下圖這個互動演示就是可以讓你理解每個 bot 是如何做出指令的,這些畫面就是 Dota 2 的 API 所觀察到的。

如何讓五個神經網路協作團戰是另一個讓不少人好奇的地方,這其實也是建立在獎勵機制上。OpenAI 為 AI 模型開發了一個叫 Team Spirit 的超參數,數值從 0 到 1,數字越小每個神經網路就越「自私」,相反則越考慮團隊的整體利益。到最後,OpenAI 發現將 Team Spirit 設置為 1 都能贏得比賽。

在訓練初期,研究員其實會將數值調整的很小,這樣 AI 會更考慮自身的獎勵,學習如何分路、對線、提供金錢和經驗。等到每個神經網路學會了基本的策略和玩法後,研究員才將數值慢慢提高。

由於所有參數都是隨機,AI 沒有引入任何人類的經驗,所以 AI 沒有 1-5 號位的概念,不會區分輔助和 carry,出裝備也是從頭開始學習。

在第一場遊戲中,英雄漫無目的地在地圖上探索,而在幾個小時的訓練後,出現了規劃、發育或中期戰鬥等概念。幾天後,智能體能一致地採用基本的人類策略:試圖從對手偷財富、推塔發育、在地圖旋轉控制英雄以獲得線路優勢。通過進一步的訓練,它們開始學會了 5 個英雄一起推塔這樣的高級策略。

TI8 冠軍 OG 戰隊

OpenAI 捲土重來,這一次直接選擇挑戰目前人類最強戰隊 OG,展示了自己的強大自信。這次的「最終對決」,OpenAI 直接以 Finals 為名,看來是最後一戰了。更令人興奮的是,它的對手 OG 絕非等閑之輩。

OG 戰隊前身為 Monkey Busniess 戰隊,後被一家遊戲直播平台收購改名為 OG。2015 年,OG 戰隊在決賽中擊敗了 Secret 戰隊,奪得法蘭克福特錦賽冠軍,從此一戰成名。

2016 年,OG 戰隊雖然在上海錦標賽中失利,卻於當年在馬尼拉再次奮起奪得第二個特錦賽冠。

冠軍團隊也並非一帆風順的。在 2016 年 TI 賽慘敗之後,OG 戰隊經歷了一波換血:去掉了 Cr1t-、Miracle-和 MoonMeander,新加入 Jerax、Ana 和 s4。重生之後的 OG 隨即斬獲了波士頓特錦賽的冠軍,之後於 2017 年獲得基輔特錦賽冠軍。

TI5-TI7 期間,OG 取得了 7 個官方特錦賽中的 4 個冠軍,這是一支頂級的世界強隊。

但 OG 真正的傳奇,展現在 TI8 的舞台上。

TI8 自 2018 年 8 月 15 日溫哥華開戰後,OG 先以 2:1 擊敗 PSG.LGD,取得勝者組冠軍。而後,打落敗者組的 PSG.LGD 在敗者組決賽中以 2:0 戰勝 EG 挺進總決賽。TI8 決賽成為了 OG 與 LGD 的恩怨局。

8 月 26 日,在總決賽的精彩對決中,最終 OG 更勝一籌,3:2 贏得 LGD,在全世界面前捧起了 TI 冠軍盾,而 N0tail 與 JerAx 也成功拿下四大聯賽大滿貫。

小結

雖然 TI8 期間,OpenAI Five 與職業選對的「表演賽」輸的慘不忍睹,但讓我們看到了人工智慧在遊戲領域的創新與突破。此次 OpenAI Five 最終決戰 TI 8 冠軍 OG,無論結果如何終將為 OpenAI 的 Dota2 遊戲項目划上一個句號。希望時經一年,OpenAI Five 能帶來更為驚艷的表現。

最後,去年的「大巴黎,咚咚咚」,今年上海 TI 9 加油啊……小編要去現場!

推薦閱讀:

相关文章