玩转《星际争霸》?谷歌AI碾压人类职业玩家
2022-10-07 21:06:38 来源:
【网易智能讯 1月25日消息】据Vox报道,谷歌英国子公司DeepMind的人工智能(AI)系统已经征服了国际象棋和围棋游戏,并转向复杂的实时游戏。现在它以10比1的战绩,击败了《星际争霸2》((Starcraft II))的人类职业玩家,达到了新的里程碑。
研究表明,很多美国人担心AI会取代他们的工作,包括Uber和Lyft的司机、快递员、接待员,甚至是软件工程师。今天一场精彩的表演赛表明,另一群人也应该为自己的“饭碗”担心了,那就是职业游戏玩家!
DeepMind开发的全新AI系统AlphaStar,在《星际争霸2》中与多名职业玩家展开了对决,这是对AI能力发展到何种程度的惊人展示。《星际争霸》是一款复杂的战略游戏,要求玩家在任何时候都要考虑成百上千个选择,在漫长的征战之上做出最有回报的战略选择,并在信息不完善的快速变化环境中进行操作。每天有20多万场《星际争霸》比赛。
DeepMind的AI比赛在YouTube和Twitch上进行了直播,自视频于周二发布以来,不仅是游戏玩家,还有AI爱好者都对它寄予了厚望。结果令人震惊:AlphaStar以10比1的战绩碾压人类玩家。AlphaStar的成功震惊了观察人士。当然,它也犯了一些错误,有些十分明显,有些则令人感到怪异,但它还是取得了最后的胜利。
虽然AI系统有时会利用计算机的天然优势——更快的反应时间和每分钟更多的操作,但DeepMind团队试图某种程度上限制其AI的能力,AlphaStar的反应时间实际上比人类慢,每分钟操作也比专业人士少。相反,AlphaStar是通过运用多种策略获胜的,展示了其对游戏中秘密行动和侦察方面的理解,在拥有优势时加大攻势,在战局不利时及时撤退。
对于担心失业的视频游戏玩家来说,这不仅仅是个大新闻。它也展示了现代机器学习技术的非凡力量,并证实DeepMind以令人惊讶的新方式应用这些技术超越人类方面处于领先地位。《星际争霸2》是一款比国际象棋复杂得多的游戏。虽然AlphaStar尚未与世界上最好的游戏玩家较量,但这与IBM的“深蓝”(Deep Blue)与加里·卡斯帕罗夫(Garry Kasparov)之间的国际象棋比赛有很多相似之处,后者改变了我们所知道的计算机功能。这再次提醒我们,先进的AI正在到来,我们需要开始考虑如何安全部署它。
哪些游戏不受AI影响?
三年前,AI初创企业DeepMind凭借神经网络AlphaGo在全球引起轰动。该公司随后被谷歌收购,目前是谷歌母公司Alphabet旗下的独立子公司。AlphaGo超越了所有人类围棋专家,展现出一种令专业围棋选手惊叹和着迷的围棋策略。一年后,DeepMind又推出了AlphaZero,这是一款改进后的AI系统,用于了解两个人玩的游戏,可以通过训练来掌握围棋、国际象棋和其他具有类似属性的游戏。
国际象棋和围棋都有些特殊的地方,这使得它们可以直接使用相同的机器学习技术。它们都是两个人玩的、拥有完美信息的游戏,这意味着任何玩家都不需要隐藏任何信息。在每轮对决中,棋手只需做出一个决定。在国际象棋中,玩家需要决定移动哪个棋子。在围棋中,在哪里放置新的棋子。
而在像《星际争霸》这样的现代竞争电脑游戏,则要复杂得多。它们通常要求玩家一次做很多决定,包括决定把注意力集中在哪里。它们通常包含不完全的信息,不知道对手在做什么,也不知道你接下来要面对什么。
大型AI研究机构OpenAI的AI工程师唐杰(音译)表示!“作为现代AI研究的基准任务,这类实时战略游戏真的很有趣。这其中有两个原因:玩家需要掌控长时间尺度,即从你做出决定到看到回报之间的时间长度。在国际象棋或围棋中,这种回报通常可以在棋局移动后立即进行评估,并检查棋局是否更容易获胜。”
唐杰还称,在像《星际争霸》(或他所致力于的《DOTA》)这样的游戏中,你需要在一个小时内的每一秒做出10个决定,所以你需要考虑成千上万个动作。为此,当你考虑到“我如何能赢得这场比赛?”等因素时,这真是个难题。
这些特性使得这些游戏成为非常适合AI的测试平台。深度学习系统,就像DeepMind擅长开发的那种,需要大量的数据来发展他们的能力,并且有大量关于人们如何玩游戏的数据。对于《星际争霸》和《星际争霸2》来说,人们已经在网上玩了20年了。对AI来说,它们代表着比国际象棋或围棋等游戏更大的挑战,但现有的数据足以让这种挑战变得可以克服。
出于这个原因,AI实验室对在网络游戏中测试他们的创作越来越感兴趣。唐杰工作的OpenAI始终致力于在《DOTA》游戏中,利用AI系统与职业玩家对决。DeepMind早在2017年就与暴雪娱乐公司(Blizzard Entertainment)合作,推出了许多工具,用于在《星际争霸》等游戏上训练AI系统。如今,我们看到了这种努力的结果。
《星际争霸》有不同的游戏模式,但竞技模式属于双人游戏。每个玩家都有些基本资源。他们建立自己的基地,派出侦察兵,当他们准备就绪时,派出军队进攻敌人的基地。谁先摧毁敌人所有的建筑,谁就是胜利者。有些《星际争霸》游戏结束得很快,你可以早早地建立军队,在你的对手准备好之前就把它派出去,并在5分钟内将其摧毁。
其他游戏模式可能会持续一个多小时。我们观看了AlphaStar采用快速而积极的早期策略的比赛,也观看了持续时间明显更长的比赛,双方都派出了庞大的军队,并制造出先进的武器。然而,在这些比赛中,没有任何游戏持续时间超过半小时,这意味着我们没有机会看到AlphaStar如何处理《星际争霸》后期战役的表现,但那只是因为没有人能抵御AlphaStar足够长的时间,让它持续时间更长。
今天,DeepMind发布了AlphaStar和职业玩家在过去几个月秘密进行的10次游戏对决录像,然后在最新版本的AlphaStar和排名靠前的职业星际玩家之间直播了一场比赛。AlphaStar前五场比赛的人类对手是职业选手TLO。在这些比赛中,DeepMind对一系列AI进行了为期一周的实时训练(在此期间,AI相当于获得《星际争霸》200年的游戏时间),每次训练的重点略有不同,然后选择表现最好的AI与人类对战。
在拥有200年经验之后,AlphaStar仍然犯了些明显的错误。在一场令人难忘的比赛中,AlphaStar在“瓶颈处”来回行进,毫无意义地为反击做准备,而评论员则表达了深深的困惑。AlphaStar没有使用所有可以使用的工具。尽管如此,它依然赢得了每场比赛,它的战术优势足以弥补其弱点。
在与TLO的五场比赛后,DeepMind团队让AlphaStar重新接受训练。在经过14天的实时训练后,来自锦标赛式训练环境的胜出者接受训练的时间相当于200年,而这种差别是显而易见的。AI不再犯明显的战术错误。它的决定对人类观察者来说仍然不是总有意义的,但是很难识别出任何明显的错误。
AlphaStar接下来与更高等级的职业玩家——格列戈尔兹·科明兹(Grzegorz? Komincz,绰号MaNa)对决,不像TLO,MaNa操作他最喜欢的种族(星际争霸有三个种族,而且大多数职业玩家专练不同的种族)。即使MaNa没有犯明显的错误,他也依然被打败了,这在很大程度上要归功于AI分裂和操纵其单位的能力,其协调性是任何人类都无法媲美的。AlphaStar再次赢了每场比赛。
唐杰表示!“这真的很有趣,也令人印象深刻。我一直在寻找的更高层次的东西,那就是战略与机制。也就是说,AI是否擅长提出游戏的大方向,或者只是通过巧妙地执行糟糕的策略而获胜?AlphaStar在这两方面的表现都很出色。它提出的高水平策略与职业玩家水平的人类玩家非常相似,它还有完美的机制可以遵循。”
之后,DeepMind又回到了绘图板上。在这10场比赛中,AI有个人类玩家所没有的巨大优势:它能够看到地图上所有可见的部分,而人类玩家必须操纵摄像头才能看到。DeepMind训练了新版本的AlphaStar,它必须自己操纵摄像头。然后是200年的训练,并从自我对决中挑选最好的AI代理。
在随后现场直播的比赛中,这款新的AlphaStar AI输给了MaNa,它似乎受到了自身需要操作摄像头的严重阻碍,无法像早期游戏中其他版本的AlphaStar所采取的许多惊人策略。对于DeepMind来说,这次失利可能是个令人失望的结局,但这款AI只训练了七天。看起来,当它有机会接受进一步训练时,它将可能重新赢得比赛。DeepMind发现,管理摄像头的AI只是稍弱了一点,并在奋起直追。
目前AlphaStar的模型当然还有弱点。事实上,早期AlphaStar AI的许多缺陷让人想起DeepMind AlphaGo的早期比赛。早期发布的AlphaGo通常获胜,但经常会出现人类能够识别的错误。DeepMind团队始终在改进它,如今AlphaZero不会犯任何人类可能会注意到的错误。
很明显,AlphaStar在《星际争霸》方面仍有改进的空间。它相对于人类的战略优势很大程度上来自于这样一个事实:作为一台计算机,它更擅长于微观管理。它的军队擅长侧翼包抄和智取人类军队,部分原因是它能同时指挥五支军队,而这是任何人类都无法做到的。
在这些游戏中,很少有战术在职业游戏中得到广泛应用,因为AI的成功主要不是因为它在考虑人类局限性从而打败了人类,而是因为它找到了能够融入自身优势的战术。虽然从技术上讲,AI的每分钟操作和反应时间都在人类的控制范围之内,但由于它的精确度更高,似乎仍有优势。更公平的做法可能是进一步限制AlphaStar的能力。
人类在很多方面仍然比最好的AI具备更大优势。例如,MaNa根据AlphaStar最初的五场比赛调整了自己对AlphaStar的反应,这可能会让他在直播比赛中获得优势。AlphaStar做不到这一点,我们不太了解能够让AI在一场游戏中学到很多东西,然后在下一场游戏中应用这些经验的训练方法。
尽管如此,解说员反复强调,AlphaStar在很多方面都与人类惊人地相似。它知道如何佯攻,如何发动早期攻击,如何应对伏击,如何在地形上导航。早在需要煞费苦心地给电脑发布指令的时候,唐杰就一直在为游戏开发AI。他说!“从那时起,我们在现代AI和现代强化学习所能做出的各种决定方面取得了巨大的进步,真是令人印象深刻。”
在AlphaStar输掉的一场比赛中,有一件事它不知道该怎么做,那就是“好好比赛”。一旦比赛无望,它就像人类玩家那样认输。也许下次我们看到它的时候,它就会明白这些道理了,也许就再也不需要这些指导了。
(选自:Vox 作者:Kelsey Piper 编译:网易科技 参与:小小)
SAP将在未来4年在物联网领域投资20亿欧元
(原标题:SAP将在未来4年在物联网领域投资20亿欧元) 据国外媒体报道,全球知名软件公司SAP将会在未来四年内拨出20亿欧元来帮助欧
2022-10-07 13:55
苹果发布免费办公平台iWork测试版
网易科技讯 1月7日消息,苹果公司宣布推出办公软件iWork的在线组件。但这并不是传说中的网络版iWork,因为它仅仅只是允许用户通过站在线共享
2022-10-07 11:47
Supermicro推出搭载全新NVIDIAL40GPU的第二代NVIDIAOVX计算系统
(原标题:Supermicro推出搭载全新NVIDIA L40 GPU的第二代NVIDIA OVX计算系统,适用于3D协作、元宇宙和数字孪生仿真) 客户可以针
2022-10-07 10:47
TCL华星荣膺CITE2022双重大奖!以硬核科技实力出圈
(原标题:TCL华星荣膺CITE2022双重大奖!以硬核科技实力出圈) 8月16日,第十届中国电子信息博览会(CITE2022)在深圳会展中心拉开帷
2022-10-07 09:11