昨天 OpenAI 正式開放了 OpenAI Five 競技場,可能是出於伺服器資源有限的原因,OpenAI Five 競技場並沒有在遊戲內提供入口,玩家需要在競技場頁面使用網頁來啟動遊戲。

遊戲模式分為兩類,一類是合作對抗,另一類是人機大戰,其中合作對抗最多支持 5 名人類玩家,對戰發起人可以自由地配置天輝、夜魘兩邊的 AI 數量,並為 AI 決定他們要玩的英雄。

玩家在地圖的哪一邊以及 AI 的英雄陣容都是在開始遊戲前通過網頁預先確定的,在遊戲中玩家只需要選擇自己需要玩的英雄。和之前的比賽一樣,英雄是限定在了 17 位,這和遊戲模式完整的《Dota 2》有很大的區別。

這個模式可以讓組不到五人車隊的玩家體驗一下對抗 OpenAI 的感覺,該模式下的對戰將不會計入這一次活動的總計分榜。你可以在這個模式下帶 4 個 AI 來對抗一支 AI 隊伍,當 AI 做你隊友時,你可以通過一些 OpenAI 預先提供的指令來幹預 AI 隊友的動作。

人機大戰模式和合作對抗模式中的規則是完全一致的,不同的地方只有人類玩家必須是一支完整的 5 人隊伍,同時雙方需要和之前進行過的比賽一樣經過 BP 選出陣容,其中 AI 的陣容是由 AI 自己選擇的,在合作對抗中 AI 的陣容則是由玩家指定的。

這個模式下的勝負將會計入總計分榜,這個計分榜主要用來統計玩家和 AI 的對戰情況。

截止筆者寫稿,OpenAI Five 在超過 1000 局對戰中一共落敗了 21 局,其中已經有不少隊伍打贏了 OpenAI 多次。

這麼看來 OpenAI 也並不是不可戰勝的,而且不知名的路人玩家也有戰勝 OpenAI 的可能。不過以 OpenAI 的實力,即使是路人玩家,其Dota 2天梯分也應該不低,因為想要在OpenAI的手下取勝,玩家需要掌握非常紮實的遊戲基本功。

除了路人玩家外,也有一些半職業隊伍(主播車隊)和職業隊伍戰勝了OpenAI,所有的數據在OpenAI的總計分榜上都是可以看到的。

隨著玩家對打法的不斷嘗試和以及對陣 OpenAI 的打法在玩家之間流傳,戰勝 OpenAI 的隊伍在未來肯定會變得越來越多。

OpenAI 並不是戰無不勝的,不論是之前和 OG 的比賽,還是現在開放的 OpenAI Arena,我們都能看出 OpenAI 還是有一些致命 Bug 的。

OpenAI 的取勝筆者個人感覺更多的還是靠操作,OpenAI 的反應速度非常快,而且對技能範圍以及傷害的計算非常精準,以至於他們可以打出很多很極限的操作。

在補刀方面,OpenAI 可以對正反補做到相當精準的控制,補刀基本功不夠紮實的玩家都沒有辦法正面對抗 OpenAI,補刀上雙方的經濟就大大拉開了。人類玩家補刀能力強的可以打中路或者優勢路,這兩路 AI 一般只會去一個人,如果你補刀穩定,那麼你的發育不會落後於 AI。

通常來說,不在中路的玩家發育會普遍比 OpenAI 要更差一些,因為 AI 對補刀是做了精準計算的,他們只存在不想補刀的情況,AI 是永遠不會漏兵的。

在對線過程中,OpenAI 表現得非常強勢,只要有殺人機會他們就會上壓對線,而且在遊戲中 AI 開局非常喜歡使用 3-1-1 這樣的分線,3-1-1 可以給對面開局帶來更大的壓力。在正常對局中這樣的套路並不常見,但在 AI 的學習中這樣的開局對他們來說顯然是有利的。

在競技場中 OpenAI 的對線策略實際上和他們之前和 OG 對陣時的表現一致,他們會在線上給對手很大的壓力,極力阻攔對手補刀以影響其發育。

AI 只要覺得有殺人機會,他們就會向前推進並且嘗試擊殺,由於這個英雄池中的絕大部分英雄都帶有控制技能,所以 AI 可以憑藉精準的計算直接用控制起手接上一套 Combo 完成擊殺。

如果玩家的站位過於靠前,那麼這個人頭毫無疑問是送出去了的,如果玩家的位置稍靠後,玩家在反應過來之後可以通過後拉英雄來迴避對面的攻擊。

在對線的過程中,玩家可以選擇避其鋒芒,不與其硬拼補刀,而是和隊友配合通過控制技能做擊殺。和 OG 對陣時一樣,OpenAI 仍然不能很好地處理在視野盲區的敵人,所以在上下路線上通過控制技起手接 Combo 是能夠完成對 AI 的擊殺的。

線上 OpenAI 非常喜歡用大葯,由於他們在經濟上普遍有優勢,所以他們會選擇購買更多的消耗品來抵消對面對自己血量的消耗,你經常會發現遠程消耗了 AI 一波之後 AI 立刻上大葯回滿血,給對面持續帶來壓力。

只有控制技 Combo 的不斷擊殺纔有機會打亂 AI 的節奏,從而擾亂 AI 在線上的發育,並且打掉 AI 的消耗品。在實際的對戰中 AI 對消耗品使用的判斷是存在問題的,他們有時候會在錯誤的時機使用消耗品而造成消耗品的浪費。

後期 AI 的推進團是相當難接的,AI 的推進團有兩個特點,第一個是技能起手很快,一套技能就能直接把你帶走,後期 AI 會買很多帶有控制的裝備,這會使 AI 在團戰時發力更猛。

另一個是如果團戰發生在線上,那麼 AI 會習慣性做包夾,切後排英雄,如果 AI 選了隱刺這樣的英雄,那麼後排英雄很有可能會直接被切。

由於這個版本的 OpenAI Five 也並不能處理好隱身,所以玩家是完全可以隱身開團的,有主播也用這樣的方式打贏了數波團戰,看起來目前 AI 這種強化學習的演算法仍然只能學習如何處理視野內可見的單位,對於視野看不到的「未知」他們還是沒有辦法去做很好的預測。

在實戰過程中,OpenAI Five 單純的強化學習還是有一定問題的,例如 AI 在插眼這個操作上還是會有 Bug,他們能精確計算遊戲中的各種東西,但是唯獨視野他們似乎是不能精準地計算,使得遊戲中 AI 會做出很多奇怪的插眼操作。

筆者個人感覺 AI 對於插眼、反眼、反隱都是沒有意識的,而且多數插眼都不在傳統眼位上,感覺他們插眼是很隨意的,不像是一個經過精確計算而做出來操作。

總體來看,即使是現有版本的 OpenAI Five,它也還是有很多可以強化的地方,單純的強化學習顯然不是應對的 Dota 2 這款遊戲的最優解,而且 AI 的強大實際上有很大一部分是由其精密計算、精準操作、高速反應構成的,AI 本身在策略上、在意識上都有很明顯的問題。

在看多了 OpenAI Five 的操作後你也會發現 AI 每一局的大策略都是基本上一樣的,AI 還並不能很好地根據戰局的變化去更加靈活地改變自己的策略,更多的只是英雄定位的切換。

這可能是機器學習的一種侷限性,即 AI 在得出了一個較好的擬合結果之後,這個結果就會被 AI 的運行時視為是所謂的「最優解」去使用,即使戰局有變化,AI 做出來的所有操作也不會脫離這麼一個「近似最優解」的策略。

現有的 AI 主要還是通過局部的變化來應對戰局的變化,例如我們有提到過的調整英雄定位,或者更改出裝、加點方式等等。在筆者的實測過程中 AI 會處於劣勢的時候做出一些類似偷塔的操作,但是可以看出來 AI 在做這種操作的時候其「意願」不是很強烈,最終他們會放棄這樣的推進轉為抓人。

顯然在 AI 的神經網路中這樣的操作是和訓練結果相違背的,它的權重更低,所以 AI 會做出這樣的嘗試,但是他們總體的操作還是不會違背這個大的策略。


看到這裡,你可能會問,OpenAI 搞這麼大一陣仗去開發、測試這樣一個只會打《Dota 2》的 AI,它的意義在哪?

這樣的 AI 顯然不是開發出來陪各位玩家們打遊戲的,它是用來測試當下的 AI 技術為日後 AI 進行進一步優化奠定基礎而開發的「試驗品」。

應用到現實世界的更高智能的 AI 需要有處理多變情況的能力,而現實世界中的大多數案例下雖然情況種數多,但每一種情況出現的頻次很低,這使得現實世界難以提供足夠多的數據反饋給 AI 的開發者幫助他們對 AI 進行調優。

所以他們選擇了這樣的即時策略遊戲,即時策略遊戲和現實世界類似有著相當複雜多變的情況,像《Dota 2》這款遊戲中就含有著爆炸多的可能性。即使 AI 在遊戲中能夠展現出一些「非人類的」操作,但是他們仍然需要通過應對、掌握遊戲中的各種多變情況才能取勝。

遊戲進行一局是非常快的,OpenAI Five 進行這樣的公開測試也能迅速收集到大量的反饋數據,並從這些反饋數據中提煉出當前 AI 在應對多變情況時還存在的問題,進而對 AI 進行更深度的優化。

面向一款遊戲開發一個 AI 實際上成本是要更低的,因為遊戲本身是開發者可控的,同時遊戲本身是一個程序,AI 可以通過「加速時間」來進行大量的訓練,AI 本身的迭代速度是要更快很多的。

所以 OpenAI Five 這樣的 AI 就存在了,它存在的意義就是為了讓 AI 變得更智能。

目前 OpenAI 競技場還在持續開放中,如果你剛好是一名 Dota 玩家,同時有興趣參與到這個活動中,那麼你可以前往 arena.openai.com 開始你和 OpenAI 的對戰。


推薦閱讀:
相關文章