OpenAI Five 止步 T18!大败顶尖人类战队,「规

M吃生活
2020
06/08
12:06

OpenAI Five 止步 T18!大败顶尖人类战队,「规

刚刚,OpenAI Five 在 DOTA 2 全球顶级赛事 TI8(The International DOTA2 Championships)中完成了与人类玩家的第二场「表演公开赛」。

没有意外,45 分钟的激战后,OpenAI Five 再次打出 GG(GOOD GAME ,意味认输)。

不过,本场比赛给了中国玩家一个惊喜,本次 OpenAI Five 对战的是来自中国的五位前职业选手——中国 DOTA2 圈元老级人物:

Burning(徐志雷)、Ferrari.430(骆非池)、xiao8(张宁)、sansheng(王兆辉)、rOtk(白帆)。

OpenAI CTO,同时也是 OpenAI Five 的工程领队 Greg Brockman 在赛前表示,遵守三局两胜的战局。

也就是说,OpenAI Five 与人类团战的本轮对决以失败告终,本次的 TI8 之旅也画上了句号。

赛后,Greg Brockman 依然发推祝贺中国五位选手获胜,OpenAI 官方也发布博文,总结了两场比赛。

OpenAI Five 止步 T18!大败顶尖人类战队,「规

 

比赛速览

比赛规则与昨日与第一场比赛的规则一样,都是选择範围都限定在 18 个英雄中,并且两队所使用的人物都是机选。

这样就充分照顾到了英雄阵容的胜率问题。

游戏中的限制也和昨天的一样,没有圣剑,没有分身和幻象,中单英雄不允许出魔瓶;没有扫描;依然是一只信使。

比赛採用了和昨天一样的阵容,不过 AI 和人类进行了互换。(通过猜硬币决定选择哪队英雄)

OpenAI Five 止步 T18!大败顶尖人类战队,「规

人类阵容:矮人直升机、巫妖、死亡先知、寒冰室女、潮汐猎人

OpenAI 的阵容:恶魔巫师、瘟疫法师、巫医、狙击手、斧王

OpenAI Five 开局很强势,对人类玩家一直压制,除了开场人类玩家拿下一血,比赛进行到了 32 分钟才将人头数拉平。

其实,在对线和出装上面人工智慧有着非常大的缺陷,这一点在第一场比赛就已经看出来了。

整个比赛过程,人类队打的还是比较轻鬆,毕竟是专业玩家,打出了专业水準。

OpenAI Five 在比赛过程中,上场比赛的 AI 操作带来的疑惑也带到了这一场,例如不知何故在自家高地插眼,比赛后期在自家门口插了一排眼。

从开场到结束,人类虽然在中前期人头数落后,但是在经济上的优势却贯穿全场,这也是人类能最后获胜的一个重要原因。

例如最初的经济差距只有两千左右,中期后期的经济差距达到了一万左右,并且还有一些经验优势。

在如此大经济差距下,OpenAI Five 也放弃了挣扎,给自己得出了只有 1% 的胜率。

到最后 45 分钟的时候,不出所料,人类打爆遗迹,获得胜利。

赛后,圈内普遍认为 AI 的反应确实很快,而且他们对血量的把握远胜人类玩家,可以更好的掌握进退的时机。

但这其实是一些 low level 的动作,AI 在这方面做的比人类好毋庸置疑,但是因此赢得先机会让人觉得赖皮。

这样的打法在前期可以和人类抗衡,而且打的还算可以,但是到了中后期的明显弱势,说明了 AI 的全局观还差很远,在策略这种高层次的动作上,是还有很大的改进空间。

因此,OpenAI 后期肯定要改进 AI 的 高层次的策略和大局观 。

以 AlphaGo 为例,它的搜索树 (Search Tree) 可以在下棋的时候搜的很深,也就是说可以看到当前局面后面的很多步的各种情况。

OpenAI 目前在这一点上显然还不够好,这也是由于游戏的複杂度要远远高于围棋。

经过这次比赛,OpenAI 下一步应该会注重在 DOTA 多智能体协作 (multi-agent system) 的探究,包括多智能体模型如何构建和如何训练的问题。

比如多智能体这个领域的最新进展、博弈论领域的最新进展和其他一些相关领域的最新进展去获取灵感。

总结:规则改变限制了 Five 发挥

赛后,OpenAI 发布了一篇文章,讲述了组织这两场比赛的原因,也详细叙述了近日的两次失败,以及接下来的目标。

OpenAI 在博文中称,与之前相比,本次比赛失败的最大原因是规则的改变 。

之前的 Benchmark 比赛配备了一项重要的限制条件:允许每个英雄一个自身的安全信使(一个向你的英雄传递道具的单位)。

而在这两日的比赛中解除了这项限制。

针对这一规则变化,一位不愿透露姓名的相关研究者认为这对 AI 的表现有很大影响。

「首先是训练时间短。短的话,训练的局数不够,AI 没见过的局面多,很多情况会不知道怎幺办,也就是说并没有收敛。

所谓收敛就是说 AI 的表现会趋于稳定,达到一个最优解或较优解。」

可以回顾 AlphaGo 自己给自己下棋,他是见过了各种局面,才可以应对的比较好。

像这种即时战略游戏,动作空间更大,所需要的训练成本也会更高,这是比较显然的

另一位相关学者给出了一个通俗的解释:

「可以拿职业运动员和业余运动员作类比,职业运动员相当于训练了很久的 AI(总体来说比赛结果相对稳定)。

业余运动员相当于训练了很短时间的 AI(他可能在某一次比赛中结果不错,但总体上来看比赛结果是不稳定的,时好时坏)

从另一个角度来说,训练时间由短到长对应于:从偶然到必然。」

以下为 OpenAI 博文全文:

OpenAI Five 在 DOTA 2 全球顶级赛事 TI8(The International DOTA2 Championships)中与人类职业玩家打了两场,输了两场。

其实在比赛过程中,人工智慧在前期,特别是在前 20~35 分钟,一直佔据着上风。

这次比赛与 17 天前的 Benchmark 赛相比,有以下特点:

○这次的对手更加强大

○英雄阵容由第三方提供

○比赛规则的一些限制对 AI 不利

因为 OpenAI Five 的五名 AI「队员」是从零开始训练的,所以这场专业比赛中,AI 的表现仍然令人兴奋。

与人类顶级选手对决,如果赢得了比赛当然是非常好,如果比赛输了也会给我们带来非常宝贵的经验,帮助 OpenAI Five 更上一层楼。

OpenAI Five 止步 T18!大败顶尖人类战队,「规规则变化

这次比赛的目的是想看看 OpenAI Five 的能力与世界顶级玩家的差距在哪里,与之前的比赛相比,这次的比赛更加正式也更加真实。

在比赛之前,我们并不知道将会与谁交手,因为这取决于有谁愿意与我们比赛。

很高兴有如此强大的队伍与我们比赛,相对于之前的 Benchmark,我们这两天获得了更多的宝贵经验。

OpenAIFive 的第一场比赛是昨天与 paiN 的对决,虽然这支战队在角逐冠军的时候被淘汰了,但是作为 Dota2 18 支顶级战队中的一支,仍然有着强大的实力。

并且,这支队伍在职业锦标赛中平均赢得了 35 万美元(约合新台币 1050 万)。

第一场比赛持续了 51 分钟,这个时间有些略长,因为一局游戏平均下来只有 45 分钟。

在游戏的中期 OpenAI Five 重新获得了一些优势,但是最终还是输给了人类玩家的策略搭配。

第二场比赛的对手是中国名人堂的选手,他们每一位都身经百战,这场比赛持续了 45 分钟,和上一局一样,在中前期 OpenAI Five 佔据着上风,但是在一系列激烈团战后,OpenAI Five 由优势转为劣势,然后输掉了比赛。

在之前的 Benchmark 比赛中,我们配备了一项重要的限制条件:

允许每个英雄一个自身的安全信使(一个向你的英雄传递道具的单位),而不是一个团队的可被破坏的信使。

而我们在这两日的比赛中解除了这项限制。

信使可以不断运送英雄的恢复品,使得 OpenAI 更容易保持英雄的状态,频繁的参与到对敌方的进攻中。

在一场 Dota 比赛中,状态较差的英雄可能会放弃进攻,选择回家补充状态。 很多观众认为,附加的信使会让游戏看起来不像「真正的 Dota」。

我们在六天之前展开训练(信使和其他项目一样,是代码中的一项)。 当我们认为单一信使会暂时降低 Five 的表现时,Dota 社区则认为单一信使会让比赛更加激动人心。

接下来的目标

我们不认为信使的变化是失败的原因。

我们认为,我们还需更多的训练,进行漏洞修复,以及将模型中最后一块照本宣科的部分移除。 我们期待着将 OpenAI Five 推向下一个等级。

这两日的对战重新让我们认识到了 Dota 人机对战中的差异,也给了我们更多的想像空间。

但是 OpenAI Five 的设计并不只是针对 Dota 2 这样一个游戏,它更多的技术探讨是如何将 AI 技术建立在一个安全的沙盒中,而这个沙盒会帮助我们在未来建立先进性的系统。

__


相关热点

相关推荐