[游戏角色新武器AI]①通过模拟训练连职业选手也被逼出冷汗
通过分析玩家行为调整策略的AI角色
利用强化学习训练AI战胜各种过去版本的自己
“对战时几乎难以分辨对手是AI还是玩家”
游戏公司的最大难题,是如何最大化提升玩家对游戏角色的沉浸感。大家都认同要利用AI提升游戏趣味性这一方向,但要找到具体方法并不容易。各家游戏公司纷纷投入,尝试应用多种AI学习方法论。
连职业选手都赞叹的AI
本土大型游戏公司NCSoft在大型多人在线角色扮演游戏(MMORPG)《Blade & Soul》中,一直在探索通过引入强化学习(Reinforcement Learning)来让角色不断成长的方案。在与玩家对战时,AI并非只是遵循预先设定好的固定模式,而是实时学习并适应战斗模式。这样既能起到调节游戏难度的效果,又能提升玩家的乐趣。
NC在为这款游戏导入高完成度AI的过程中,必须解决多个难题。目标是打造既具有挑战性、又不会给玩家带来过度压力的AI对手。为此,公司利用了海量玩家日志数据,但在策略优化和处理复杂动作空间等方面遭遇了技术难关。
NC几乎把全部研发实力都倾注到了研究组织上。NC的研究组织大致分为VARCO和AI技术中心两大部分,两大中心共拥有约200名专业研发人员。该公司VARCO中心负责人Lee Kyungjong表示:“我们抱着‘AI能否战胜人类’的期待进行了真人对战测试,但训练出的AI只学会了如何战胜规则型AI,对于采用不同战斗方式的人类玩家却完全无法应对。”他这样吐露困难。
开发者们长期深入研究强化学习领域,因为游戏内的技能系统种类繁多、复杂度极高。以一局游戏为单位,计算平均使用技能数、移动选择项、对手选定目标以及平均游戏时间后发现,其动作空间的复杂度高达10的1800次方。所谓动作空间,是指在游戏给定环境下角色能够采取的所有动作;空间越大,所需学习数据就会呈爆炸式增长。考虑到被认为情况数极多的围棋,其动作空间值也不过是10的170次方,由此可见游戏角色的行动几乎可以说是自由无拘。
为了让AI能够学习玩家行为,并在此基础上施展多样战略,NC重点放在让AI具备根据局势进行适应和应对的能力,而不是仅仅沿着预设路线行动。
该中心负责人表示:“由于玩家的玩法风格具有可变性,因此需要灵活的AI。为减少由高复杂度带来的庞大情况数,我们设法通过缩减动作空间来解决。”
强化学习让AI在采取某一行为后,根据结果不断选择最优策略。通过多种战斗模拟进行学习和进化,从而为玩家提供与真实玩家对战(PvP,玩家对玩家)相近的紧张感。
自适应AI会分析玩家的行为模式,降低战斗的可预测性,营造需要多样战术应对的战斗局面。每当玩家改变进攻或防守模式时,AI都会进行识别,并以最优策略应对。这之所以成为可能,是因为AI并非停留在预先学习好的战斗方式上,而是通过实时学习来分析玩家战术。
NC还通过与职业选手对战来验证AI性能。AI能够应对职业选手级别的高难度战术,并根据玩家的风格快速调整策略。与“进攻型”“平衡型”“防守型”三种版本AI对战的职业选手们给出了“对战非常有趣”的评价。
团队作战也得心应手
在《天堂 Remastered》中,AI又以另一种方式被应用。AI会分析玩家战术、预测其行动并制定最优应对策略,这一点与《Blade & Soul》相似,但在“团队作战”方面则有所不同。
代表性内容是玩家阵营与AI阵营为争夺监狱二层控制权而展开战斗的“镜像战争”。这是与由AI实现的角色(APC)对战的AI内容。NC在APC角色上采用了多智能体强化学习(MARL,Multi-Agent Reinforcement Learning)方法论。作为强化学习的一个分支,它研究的是多个智能体在相互作用的环境中,通过学习找到各自最优策略的过程,目前已广泛应用于机器人技术、自动驾驶车辆、博弈论等多个领域。
该中心负责人表示:“随着AI能够在游戏中预测敌方行动与玩家战术,战斗的紧张感大幅提升。今后我们以开发不再作为敌人,而是成为玩家同伴、并肩作战的AI为目标,正持续推进相关研究。”
主要游戏公司也开始将目光投向如何把AI融入游戏。Nexon在其AI研究组织“Intelligence Labs”中配备了700名员工,重点布局利用AI优化游戏内角色行为和用户体验,以及基于AI的匹配系统等。Nexon相关负责人表示:“我们计划通过AI提供个性化游戏体验,并为开拓全球市场进一步扩充人力。”
Krafton则组建了约百人规模的深度学习本部,正在开发可由二维照片生成可操控三维角色虚拟形象的技术、从语音生成面部及口型动画的技术等可应用于游戏制作的AI技术。Krafton相关负责人表示:“我们将通过AI模拟和基于深度学习的分析来预测用户行为,并为提供更具创新性的游戏内容而扩张组织。”
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。