OpenAI 今日宣布,它们的游戏人工智慧 OpenAI Five 将于 4 月 13 日与人类进行最终决战,此次比赛的对手是 Dota 2 世界冠军团队 OG。

机器之心报道,参与:李泽南、李亚洲。

虽然在去年 8 月的 Dota2 国际邀请赛(TI8)上,OpenAI连续输给 paiN 以及由大 B 神、xiao8、430、ROTK、狗哥这些中国 Dota 届元老组成的战队,但 OpenAI 并没有因为挑战失败而放弃尝试。这一次他们直接选择了与 TI8 上的冠军团队过招。

看来在最近 6 个多月的时间里,人工智慧又学会了一些新的技术?

这次比赛的规则类似于 TI8 时 OpenAI Five 与职业战队的比赛:

  • 18 名英雄可选:斧王、水晶室女、死亡先知、撼地神牛、矮人直升机、巫妖、巫魔巫师、死灵法师、痛苦女王、剃刀、隐刺、影魔、斯拉克、矮人火枪手、斯温、潮汐猎人、冥界亚龙、巫医。镜像匹配:瘟疫法师、矮人火枪手、冥界亚龙、水晶室女、巫妖。
  • 无圣剑、魔瓶
  • 无召唤物,无幻象
  • 无扫描

值得注意的是,TI8 比赛期间,去除掉了「5 个无敌信使」的限制,因为这个条件会极大的影响游戏的真实性。

  • 本次 OpenAI Five Finals 赛事直播地址:twitch.tv/openai
  • 比赛时间:北京时间 4 月 14 日凌晨 2:30 分(美国太平洋时间 4 月 13 日 11:30)

OpenAI Five:挑战人类的成与败

人工智慧在围棋上击败人类之后,很多技术人员就开始展望 AI 在视频游戏中的表现了。2017 年的 Dota2 国际邀请赛 TI7 上,OpenAI 推出的人工智慧横空出世,在人类巅峰对决的比赛现场 1v1 打败了世界顶级玩家。

在那场一对一表演赛中,OpenAI 的人工智慧打败了 Danylo "Dendi" Ishutin,一名在职业生涯中赢得超过 70 万美元奖金的职业玩家。OpenAI 的 bot 在第一场比赛开始约 10 分钟打败了 Dendi。在第二场比赛中 Dendi 放弃,并拒绝进行第三场比赛。

Dendi 在比赛前接受采访,作为第一个在公开比赛中被 AI 击败的职业选手,他领教了人工智慧在单挑时的应变能力

单挑可能还不具有太多说服力,Dota2 是一个 5v5 的多人对战游戏,很快 OpenAI 就开启了更为正式的「10 人对决」之旅。2018 年 6 月,这家公司提出的「OpenAI Five」又在 5v5 多人对局中击败了由前职业玩家、游戏解说组成的天梯 6000 分级别战队,并宣布会于 TI8 上亮相和真正的职业选手过招,一时吸引了人们的关注。

Dota2 是目前全球最为流行,也最复杂的电子竞技游戏之一。其最负盛名的赛事「TI」每年都会吸引上千万玩家的关注

面对 AI 的挑战,人类跃跃欲试,在 TI8 上很多参赛队伍都报名想参加 OpenAI Five 的比赛,OpenAI 遇到的第一个对手是来自巴西的战队 paiN,后者也是 TI8 决赛阶段第一支被淘汰的队伍。有了 AlphaGo 的「前车之鉴」,人们纷纷预测 AI 稳赢,然而人类职业玩家却让 OpenAI 尝到了失败的滋味。

paiN 选择了开雾直接冲进天辉野区,四人围攻落单的潮汐,抢到了一血。OpenAI 也展示出了人工智慧「不聪明」的一面,在塔下不断插眼。虽然在随后的比赛中双方有来有往,但人类玩家逐渐掌握了计算机的套路,在 50 分钟的比赛后打爆了对方的水晶。

在 Open AI Five 对阵 paiN 的比赛中,人工智慧对于自己获胜概率的预测

这场失利让大家对于 AI 的期待有所下降,随后在第二场比赛中,由 Burning、Xiao 8、430、ROTK 和 Sansheng 组成的「中国 Dota2 元老队」也顺利击败了 OpenAI Five,让人工智慧的 TI8 之旅最终以失败告终。

第二场比赛中,人类用了 45 分钟拿下胜利,人头比 48 比 43

解决 5v5 的核心问题

虽然首次挑战职业玩家没有成功,但 OpenAI Five 的尝试为人工智慧领域技术的发展有著很大意义——它解决一个重要问题:强化学习在如此复杂、需要长期策略的游戏环境下是否依然奏效?

通过自我对抗学习,OpenAI Five 每天相当于玩 180 年的游戏。训练上,它使用 256 块 GPU、12 万 8000 个 CPU 核心使用近端策略优化(Proximal Policy Optimization)方法进行训练。当每个英雄使用单独的一个 LSTM,模型就可以在没有人类数据的情况下学到可识别的策略。这表明强化学习即使没有根本性的进步,也能够产生大规模但也可接受的长期规划。这出乎了 OpenAI 研究人员起先的预料。

为了训练每个英雄,OpenAI 使用了两种机器学习技术:长短期记忆网路(LSTM)和近端策略优化(Proximal Policy Optimization)。

为什么使用 LSTM 其实很好理解:打 Dota2 需要长期策略,敌方英雄的每一个当前行为都会对之后的行为产生影响。LSTM 是一种循环神经网路(RNN),它比普通的 RNN 更适合于处理和预测时间序列中间隔和延迟非常长的重要事件。LSTM 有一个叫做 Cell 的元素,能够分辨出输入的信息是否有用,是否需要记住。

每一个 bot 的神经网路包含一个单层的、拥有 1024 单位的 LSTM,观察游戏的局势然后做出相应的行为。下图这个互动演示就是可以让你理解每个 bot 是如何做出指令的,这些画面就是 Dota 2 的 API 所观察到的。

如何让五个神经网路协作团战是另一个让不少人好奇的地方,这其实也是建立在奖励机制上。OpenAI 为 AI 模型开发了一个叫 Team Spirit 的超参数,数值从 0 到 1,数字越小每个神经网路就越「自私」,相反则越考虑团队的整体利益。到最后,OpenAI 发现将 Team Spirit 设置为 1 都能赢得比赛。

在训练初期,研究员其实会将数值调整的很小,这样 AI 会更考虑自身的奖励,学习如何分路、对线、提供金钱和经验。等到每个神经网路学会了基本的策略和玩法后,研究员才将数值慢慢提高。

由于所有参数都是随机,AI 没有引入任何人类的经验,所以 AI 没有 1-5 号位的概念,不会区分辅助和 carry,出装备也是从头开始学习。

在第一场游戏中,英雄漫无目的地在地图上探索,而在几个小时的训练后,出现了规划、发育或中期战斗等概念。几天后,智能体能一致地采用基本的人类策略:试图从对手偷财富、推塔发育、在地图旋转控制英雄以获得线路优势。通过进一步的训练,它们开始学会了 5 个英雄一起推塔这样的高级策略。

TI8 冠军 OG 战队

OpenAI 卷土重来,这一次直接选择挑战目前人类最强战队 OG,展示了自己的强大自信。这次的「最终对决」,OpenAI 直接以 Finals 为名,看来是最后一战了。更令人兴奋的是,它的对手 OG 绝非等闲之辈。

OG 战队前身为 Monkey Busniess 战队,后被一家游戏直播平台收购改名为 OG。2015 年,OG 战队在决赛中击败了 Secret 战队,夺得法兰克福特锦赛冠军,从此一战成名。

2016 年,OG 战队虽然在上海锦标赛中失利,却于当年在马尼拉再次奋起夺得第二个特锦赛冠。

冠军团队也并非一帆风顺的。在 2016 年 TI 赛惨败之后,OG 战队经历了一波换血:去掉了 Cr1t-、Miracle-和 MoonMeander,新加入 Jerax、Ana 和 s4。重生之后的 OG 随即斩获了波士顿特锦赛的冠军,之后于 2017 年获得基辅特锦赛冠军。

TI5-TI7 期间,OG 取得了 7 个官方特锦赛中的 4 个冠军,这是一支顶级的世界强队。

但 OG 真正的传奇,展现在 TI8 的舞台上。

TI8 自 2018 年 8 月 15 日温哥华开战后,OG 先以 2:1 击败 PSG.LGD,取得胜者组冠军。而后,打落败者组的 PSG.LGD 在败者组决赛中以 2:0 战胜 EG 挺进总决赛。TI8 决赛成为了 OG 与 LGD 的恩怨局。

8 月 26 日,在总决赛的精彩对决中,最终 OG 更胜一筹,3:2 赢得 LGD,在全世界面前捧起了 TI 冠军盾,而 N0tail 与 JerAx 也成功拿下四大联赛大满贯。

小结

虽然 TI8 期间,OpenAI Five 与职业选对的「表演赛」输的惨不忍睹,但让我们看到了人工智慧在游戏领域的创新与突破。此次 OpenAI Five 最终决战 TI 8 冠军 OG,无论结果如何终将为 OpenAI 的 Dota2 游戏项目划上一个句号。希望时经一年,OpenAI Five 能带来更为惊艳的表现。

最后,去年的「大巴黎,咚咚咚」,今年上海 TI 9 加油啊……小编要去现场!

推荐阅读:

相关文章