著名非营利性机构OpenAI宣布人工智能界的新惊喜:AI已能像人类一样“组队”,在5v5对战中完虐DOTA2人类玩家,并且平均天梯分数超过4200分(超过将近90%的DOTA2玩家,去年中国平均天梯分为3274分)。
OpenAI的支持者、特斯拉创始人伊隆马斯克(Elon Musk)表示:“OpenAI首次在竞争激烈的电子竞技中击败世界顶尖玩家,这远比围棋、象棋等传统棋盘游戏更加复杂。”
AI团战首秀,表现神乎其技
DOTA2是一个非常复杂的实时战略游戏。两个分别由5名玩家组成的队伍相互进攻,围剿并摧毁对方玩家的基地。这款游戏拥有115个可玩英雄,每个英雄都拥有独特的技能和属性,这意味着对于人类而言,完美操作应对游戏的全部可能性基本上是不可能的。然而,AI或许可以打破这一局限性。
去年8月的DOTA2国际邀请赛TI7上,Open AI的机器人在1v1比赛中完虐DOTA2顶级职业玩家Dendi。Dendi是世界知名DOTA2职业选手、solo高手,玩法灵活,经常玩出神级操作,曾带领Navi战队拿下TI1冠军和TI2、TI3亚军。在这场人机对战中,AI的表现相当彪悍,出手娴熟狠厉,卡兵、压制、补给等操作样样在行,几乎刀刀致命,就连假动作和秀走位也展现超高水平。AI第一场仅用10分钟就击败Dendi,第二局一开场就进塔强杀Dendi,逼得Dendi直接认输并拒绝进行第三场比赛。
昨日,OpenAI的AI系统华丽升级,推出OpenAI Five系统首次挑战5v5团战,并成功击败Open AI内最好的员工团队。这场比赛由专业评论员Blitz和OpenAI DOTA2团队成员Christy Dennison参与评论,并被社区群众围观。
在此次对战中,团队降低了一定的团战难度:其一,对手非顶尖职业选手;其二,AI暂时只会使用5位英雄;其三,要求人类玩家不能使用真假眼。这些限制使得OpenAI Five参与的比赛比最具挑战性的人类版本更简单。
迄今为止,OpenAI Five已在和如下团队发生过对战:
1、最强OpenAI员工团队:2500 MMR;
2、观看OpenAI员工比赛的最强观众(包括评论第一场OpenAI员工比赛的Blitz):4000-6000 MMR;
3、 Valve员工团队:2500-4000 MMR;
4、 业余队:4200 MMR,团队训练;
5、 半职业队:5500 MMR,团队训练。
其中,MMR(MATCH MAKING RATING)指匹配等级,用来确保玩家能够和真实实力相近的玩家对抗,并且影响玩家在赛后能够获得或者输掉多少积分。经过一段时间,玩家积分将会逐渐向其隐藏MMR值靠近。
OpenAI Five在4月23日的版本首次击败脚本基线,5月15日版本与第一队平分秋色,赢输各一场。在6月6日和1-3队的对决中,新版本OpenAI Five赢得所有比赛。随后团队进行了和4、5队的非正式比赛,原以为AI会输,孰料OpenAI Five前三场比赛就打赢两场。
在比赛中,OpenAI Five为了控制敌方,反复牺牲自己的安全路径,迫使对方团队难以防御。为了从游戏早期到中期比对手更快,OpenAI Five做出两个行动:(1)建立成功的ganks(玩家在地图上移动以埋伏对手英雄);(2)在对手集合前先行组队推塔。
此外,OpenAI Five还有些非主流的打法,比如把前期经验和钱给辅助英雄。它的优先级能让伤害值涨的更快,使其快速赢得团战。研究团队称,OpenAI Five平均每分钟执行150-170次动作,而理论上每4帧观察到的最大值是450,这个时间掌控对于人类而言已经趋于完美。OpenAI Five的平均反应时间也比人类更快,仅为80ms。
专业DOTA2比赛评论员Blitz表示:“感觉就好像五个知道优秀总体战略的无私玩家协同合作,机器人的团队合作令人深受冲击。”
“刻苦”学习:每天玩180年的游戏
OpenAI Five通过强化学习实现自我学习,每天通过积累的游戏经验需要人类用180年才能获得,如此“勤学苦练”,拥有超强策略能力似乎也并不是什么值得意外的事。
五个神经网络组成的团队大大增加了AI系统对计算能力的需求,OpenAI Five使用在256个GPU和128,000个CPU内核上运行的扩展版近端策略优化进行训练。对每个英雄使用单独的LSTM并且不使用人类数据,它学习可识别的策略。
1、模型结构
每个OpenAI Five的网络都包含一个单层有1024个单元的LSTM,它可以通Valve的Bot API查看当前的游戏状态,并通过几个可能的动作做出下一步操作,比如延迟此动作的刻度数量、要选择的动作数量以及单位周围网格中此动作的X或Y坐标等等。
2、勘探环境
为了能够及时作出有效应变,OpenAI Five需要长期不断地探索环境。OpenAI Five通过探索获得对应的奖励值,以衡量人们在游戏中做出的进攻、辅助等决定,在减去平均奖励后为OpenAI Five的下一步行动提供选择的基准。
3、协调
OpenAI Five的英雄神经网络之间并没有具体的通信渠道,它们通过被研究人员称为“团队精神”的超参数控制团队合作。“团队精神”范围从0到1,对OpenAI Five的每个英雄如何权衡多少个人奖励与团队奖励提供了权值设置,从而使得系统因地制宜地学习新策略。
4、快速
OpenAI Five使用通用RL训练系统Rapid,研究人员已经使用Rapid解决了OpenAI的竞争性自我对局(Competitive Self-Play)等其他问题。研究团队使用自己的NCCL2封装来并行GPU计算和网络数据传输,并采用Kubernetes,Azure和GCP后端。
挑战比AlphaGo更高的难度
人们提到AI里程碑式的进步,往往会想到AI战胜国际象棋或围棋世界冠军。如今,新的AI的里程碑则是在像StarCraft或DOTA这样复杂的视频游戏中表现超越人类。比传统棋牌游戏难度更大的是,复杂的视频游戏开始捕捉现实世界的混乱和连续移动。这需要能够适应这类游戏规则的系统具有很高的通用性。
玩DOTA2的AI面临以下几个难点:
1、持续时间长
DOTA游戏以每秒30帧的速度运行,平均时间为45分钟,每场游戏平均80,000帧。OpenAI Five每4帧观察一次,产生20,000次移动。几乎所有的举动都是战略性的。
2、观察范围受限
象棋和围棋都是全信息游戏,而DOTA游戏中敌人可以隐藏,比赛需要根据不完整的数据进行推断,并且需要实时掌握对手的状态信息。AI暂时不具备对视野的控制能力,玩的版本要求双方只能在游戏既定视野中对战,不能根据能力改变视野。
3、高度连续的动作空间
在DOTA中,每个英雄可以采取数十个动作。研究人员将每个英雄的空间分割成170,000个可能的行动;不计连续部分,每帧平均有大约1000次有效操作。而围棋的平均动作数为250步,国际象棋则更少,仅有35步。
4、高维度连续的观察空间
DOTA在包含十个英雄、数十个建筑物、几十个NPC单位以及诸如符文、树木和病房等一系列游戏特征,这些特征将持续在梯田上移动。OpenAI Five模型通过Valve的Bot API观察DOTA游戏的状态,其中大约20,000个浮点数被用于表示允许人类访问的所有信息。相比之下,国际象棋棋盘大约需70个枚举值, 一个Go棋盘大约需400个枚举值。
DOTA规则也非常复杂,游戏已经被开发了十多年,拥有数十万行复杂代码。这个逻辑需要几毫秒的时间才能执行,而对于国际象棋和围棋而言,只需要几纳秒。此外,游戏每两周更新一次,它大环境语义也在不断改变。针对这些问题,OpenAI Five团队使用Proximal Policy Optimization的大规模版本进行学习,其使用的CPU、图形处理器、游戏每秒观察数等各种参数都较去年的OpenAI 1v1机器人有了全面的提升。
根据当前版本OpenAI Five的测试比赛表现,评论员Blitz估计它大致是DOTA玩家的中间水平。在比赛过程中,研究人员发现,OpenAI Five会做出一些专业策略,比如为了长期的团队回报而做出暂时的自我牺牲,以残血将人类玩家诱出高地。这些观察大大增加了研究人员的信心,对于游戏中还没有整合进来的一些元素,他们将在后续尽快加上。
结语:剑指TI8,我们的目标是星辰大海
这仅仅是个开始。尽管OpenAI Five还有很大的障碍需要克服,耗费了大量的人力和财力,它的野心又怎么可能止步于和业余玩家对局?OpenAI Five的研究团队称,他们正在专注于优化系统,希望它能超越人类的表现。
有了去年1v1的完胜成绩,今年8月下旬,在加拿大温哥华举行的顶级DOTA赛事TI8上,OpenAI Five将进军5v5团战,与真正的专业选手战队一决高下。在此之前的7月28日,OpenAI Five会先行与顶级玩家对战,并通过Twitch的实况转播和大家见面。
如果OpenAI Five能打出漂亮的一仗,它将分食DeepMind的AlphaGo系列带给人们的雷霆。真实世界的AI部署要处理的难题远远比在国际象棋、围棋、Atari游戏中的问题更加复杂,“协作型”AI技将有望学会真实世界中复杂而混乱的重要任务。比如,通过相互配合在在线交易或广告竞价排名中拿下订单,在组队完成多样化生产制造任务,甚至是完成外科手术等等。这些都会使人类双手得到进一步解放。
OpenAI希望有朝一日,借助和DOTA比赛的经验构建更加通用的系统,为人类社会做出贡献。
内容转载自:智东西