这项由腾讯、新加坡国立大学、香港理工大学、香港科技大学(广州)、中国科学院大学以及香港科技大学联合开展的研究,于2026年5月发布在arXiv预印本平台上,论文编号为arXiv:2605.15256v1,题为《ReactiveGWM: Steering NPC in Reactive Game World Models》。对这项研究感兴趣的朋友,可以通过这个编号在学术搜索平台上查阅完整的论文内容。
打开任何一款电子游戏,你都会遇到形形色色的"非玩家角色",也就是大家俗称的NPC。他们可能是街头的商人,可能是和你对战的敌人,也可能是陪你冒险的伙伴。但你有没有想过一个问题:在那些用人工智能生成的虚拟游戏世界里,这些NPC到底是真正"活着"的角色,还是仅仅像背景墙上的画一样,只是看起来在动而已?
这个看似奇怪的问题,恰恰是这项研究想要解决的核心难题。研究团队发现,目前市面上几乎所有的"游戏世界模型",也就是那些用AI技术从零开始生成游戏画面的系统,都有一个共同的盲点:它们眼中只有玩家自己,至于游戏里的其他角色嘛,不过是一堆会动的像素罢了。这就好比你在拍一部电影时,导演只关心主角的表演,而把所有配角都当成了会动的道具,配角什么时候出招、用什么策略,全靠剧本死板地规定好。
为了打破这种"主角光环"式的设计思路,研究团队开发了一套叫做ReactiveGWM的新系统。这个名字中的"Reactive"是"有反应的"意思,"GWM"则是"游戏世界模型"的缩写。简单来说,他们想让游戏里的NPC从"背景板"变成真正会思考、会制定策略的对手。整个系统在两款经典的街头霸王格斗游戏上进行了测试,分别是1992年的《街头霸王II:冠军版》和1998年的《街头霸王Alpha 3》。
一、为什么现在的游戏AI像个"提线木偶"
要理解这项研究的价值,得先弄明白现在的游戏世界模型到底是怎么工作的,以及它们为什么会有"NPC不活"这个毛病。
回到电影拍摄的比喻上。传统的游戏世界模型就像一个只会按剧本拍戏的导演。当你想让AI生成一段游戏画面时,你需要给它两样东西:一张游戏开始时的画面,以及一段描述整个场景会发生什么的文字说明。这段文字说明会同时描述玩家在做什么、NPC在做什么、背景里发生了什么——所有元素都被搅和在了一起。
举个具体的例子,传统的提示词可能是这样写的:"玩家跳起来的同时NPC蹲下,然后向右走……"你看,这种描述方式有个致命的问题:NPC的每一个动作都被预先写死了,它不是真的在"思考"该怎么应对玩家,而是单纯地按照剧本表演。换句话说,这种模型更像是一个"视频播放器",而不是真正的"游戏引擎"。
这就引出了一个让游戏开发者头疼的问题:在真实的游戏世界里,NPC应该是有自己想法的对手。一个好的格斗游戏对手,会根据当前局势选择不同的战术——可能是猛冲过来近身肉搏,可能是保持距离用远程招式骚扰,也可能是耐心防守等待玩家露出破绽。如果NPC只会跟着剧本走,那游戏就完全失去了对抗的乐趣,玩起来就像在看一场早就排练好的表演。
研究团队意识到,要让NPC真正"活"过来,关键在于把NPC的行为逻辑从那个杂糅的提示词里"解放"出来,给它一个独立的"大脑"。
二、教AI看懂"打架的门道":数据的精心准备
研究团队面临的第一个挑战是:怎么让AI学会理解NPC的高层策略?这就好比要教一个从没看过格斗比赛的人去当解说员,你得先给他看大量的比赛录像,并且告诉他每场比赛中选手用的是什么战术。
为了完成这项"教学工作",团队搭建了一套精巧的数据收集流水线。整个流程大致是这样运作的:他们用一个叫做stable-retro的游戏模拟器来运行这两款街头霸王游戏,然后让一个"随机操作的玩家"去和电脑控制的NPC对战。这个随机玩家会从10个按键中随便选择动作,包括上下左右四个方向键和六个攻击键,一直打到一方被击倒为止。每场对战的录像会被切成5秒钟的小片段,每段100帧画面,同时还会记录下每一帧玩家按了哪些键。
接下来是最关键也最巧妙的一步——给每个视频片段贴上"战术标签"。研究团队请来了谷歌的Gemini大语言模型担任"赛事分析师",让它观看每个5秒钟的片段,回答12个关于NPC行为的具体问题。这些问题都是非常客观的事实性问题,比如"NPC有没有出拳?"、"NPC发了几次音速拳?"、"NPC和玩家之间的距离是近、中、远?"、"NPC是在前进还是后退?"等等。
这种做法非常聪明,因为它把"判断"和"观察"分开了。Gemini只需要做客观的观察记录,不需要直接判断NPC到底在用什么战术。然后,研究团队用一套预先设计好的规则引擎,根据这些观察结果自动判断NPC的战术属于哪一类。最终,所有NPC的行为被归类为三种互斥的战术风格:进攻型(Offense),也就是快速拉近距离打肉搏;控场型(Control),通过远程招式如音速拳来控制距离;防守型(Defense),主要靠蹲防和读招来反击。
为什么要这么麻烦地分两步走呢?因为这样可以最大限度地减少AI"瞎猜"带来的错误。Gemini偶尔会看错某个细节,但它很难在所有客观事实上都犯错。而规则引擎是完全确定性的,只要观察事实正确,分类结果就一定正确。通过这种方式,研究团队为每款游戏收集了大约一万段带标注的训练数据。
三、给AI装上"双控制系统":架构设计的奥妙
有了高质量的训练数据,接下来就是设计模型本身了。研究团队的核心思路可以用一个汽车的比喻来理解:传统的游戏世界模型就像一辆只有一个方向盘的车,所有的控制信号都得通过这一个方向盘传进去,结果就是各种指令互相打架。而ReactiveGWM则给这辆车装上了两套独立的控制系统——一套专门控制玩家角色的动作,另一套专门控制NPC的战术。
具体来说,玩家的按键操作通过一种轻量级的"附加偏置"机制注入到模型中。这个过程是这样的:每5秒的视频被压缩成几个时间段,每个时间段内玩家按过的按键会被汇总成一个10维的向量(因为总共有10个按键)。这些按键信息会被转换成模型能理解的形式,然后像调味料一样均匀地撒到每一个画面像素的"潜在表示"上。这样,模型在生成每一帧画面时,都能"知道"玩家此刻按了什么键。
而NPC的高层战术则通过另一条完全不同的通道注入——交叉注意力模块。这里的"注意力"是深度学习中的一个核心机制,可以理解为模型在生成每个画面元素时,会"看一眼"战术提示词,然后根据提示词的内容来调整自己的输出。研究团队把NPC的战术提示词设计成包含三个部分的结构:NPC的主动行为(比如蹲防、音速拳等),NPC的被动行为(比如挨打、被击倒等),以及NPC的总体战术类别和具体描述。
这种"分而治之"的设计带来了一个意想不到的好处:模型学到的NPC控制能力可以被"打包带走",搬到完全不同的游戏里使用。这就好比你在街头霸王II里训练出来的"战术教练",可以无缝地搬到街头霸王Alpha 3里继续指导新角色,根本不需要重新学习。
四、零样本迁移:会"跳槽"的AI教练
这种迁移能力是这项研究最让人眼前一亮的地方。研究团队是这样实现的:假设你已经有了一个在街头霸王II上训练好的ReactiveGWM模型(叫做"基础版"),同时还有一个在街头霸王Alpha 3上训练的普通版模型(也就是那种NPC不会自主思考的传统模型)。现在,研究团队做了一件神奇的事情——他们把基础版模型里负责NPC战术控制的交叉注意力模块单独取出来,直接"嫁接"到Alpha 3的普通模型上,得到一个新的"迁移版"模型。
结果令人惊讶:这个嫁接出来的迁移版模型,居然真的能在街头霸王Alpha 3里指挥NPC执行各种战术!更妙的是,它对Alpha 3游戏本身的视觉风格和物理规则没有任何破坏,画面看起来和原版完全一致。
为什么这种"器官移植"能成功?研究团队对此进行了深入分析。他们发现,交叉注意力模块在整个模型中其实只占用了非常小的"能量份额"——大约只有0.71%。也就是说,模型的大部分工作(约99.3%)都是由其他模块完成的,包括自注意力层和前馈网络,这些模块负责处理游戏的视觉效果和物理规律。交叉注意力模块更像是一个"低带宽的指挥频道",它不会大幅改变画面的主要内容,只会微调NPC的行为方向。
进一步的分析表明,迁移过去的交叉注意力模块虽然占用的能量份额不大,但它引入的"信号方向"和原始模型有显著差异——余弦相似度只有0.55,这意味着它确实在指挥模型做不一样的事情。这种细微但持续的方向性引导,经过30个网络层和30个扩散步骤的累积,最终就足以让NPC的行为发生根本性的变化。
五、实战检验:AI对手到底有多聪明
光说不练假把式,研究团队设计了一整套严格的评估体系来检验ReactiveGWM的实际表现。整个评估分为三个维度:玩家动作执行的准确度、NPC战术执行的准确度,以及画面视觉质量。
在玩家动作控制方面,研究团队设计了100组测试,每组测试包含一个起始画面和一个单一按键动作(比如只按"跳"或者只按"轻拳"),生成41帧画面后看NPC是否真的执行了这个动作。为了客观测量,他们用SAM2.1和Grounding DINO这两个图像分割工具自动追踪角色的位置变化,然后用一个专门训练的攻击动作分类器(基于ResNet-18和时间卷积网络的6分类模型)来判断角色是否做出了正确的攻击动作。
结果显示,ReactiveGWM在街头霸王Alpha 3上的移动准确度和攻击准确度都达到了100%,在街头霸王II上也分别达到95%和93.3%,几乎和不需要控制NPC的传统模型持平。这说明给NPC装上"自主大脑"完全没有影响玩家自己的控制体验。
在NPC战术执行方面,研究团队从测试集中精心挑选了99段视频(每种战术33段),用两个不同的视觉语言模型(Gemini和Qwen3-VL-8B)作为"裁判"来判断生成的视频中NPC执行的是哪种战术。结果非常亮眼:在街头霸王II上,传统模型对战术指令的遵循准确度只有大约43%,而ReactiveGWM基础版达到了75.8%-76.8%,几乎翻了一倍。在街头霸王Alpha 3上效果更明显,传统模型大约41%,ReactiveGWM达到了78.8%-79.8%。即使是那个通过"器官移植"得到的迁移版,准确度也能达到63%-73%,远远超过传统模型。
在视觉质量方面,ReactiveGWM在结构相似性(SSIM)和感知相似性(LPIPS)这两个指标上都和传统模型保持在同一水平,证明给NPC增加战术控制并没有牺牲画面质量。
六、看NPC如何"演技大爆发"
数字可能有些抽象,让我们看看具体的视觉效果。当研究团队给NPC下达"进攻"指令时,NPC会主动快速地接近玩家角色,发起一波又一波的近身攻击,就像一个急性子的拳击手不断逼近对手寻找出拳机会。当指令变成"防守"时,同样的NPC立刻变得谨慎起来,开始保持安全距离,对玩家的每一个动作都做出闪避或格挡反应,就像一个老练的拳手在等待对手露出破绽。当指令是"控场"时,NPC则会站在中远距离不断发射音速拳(在街头霸王II中)或空中飞行道具(在街头霸王Alpha 3中),把玩家压制在远处,类似于现代军队用远程火力压制敌人的战术。
更细致的测试显示,模型还能精确执行各种组合行为指令。比如当提示词是"站立拳击+投技"时,NPC会先准确地打出一拳,然后无缝衔接进入近距离的擒抱动作。当提示词是"跳跃攻击+站立拳击"时,NPC会先发起空中攻击,落地后立刻接上一记地面拳击。当提示词是"站立踢+蹲下踢"时,NPC会展现出精细的姿势控制能力,从站立踢击流畅地过渡到蹲下低踢。这些细节展示出模型不仅能理解高层战术,还能精确执行具体的动作组合。
为了进一步验证效果,研究团队还做了一项有19名熟悉2D格斗游戏的志愿者参与的用户研究。在玩家动作执行方面,三个版本的模型得分都在4.32到4.60分之间(满分5分),差异不大。但在NPC战术识别方面,差异就非常显著了:在街头霸王II上,传统模型的战术识别准确率只有43.9%,ReactiveGWM基础版达到86%,迁移版84.2%;在街头霸王Alpha 3上,传统模型直接跌到17.5%,而基础版达到77.2%,迁移版61.4%。
不过用户研究也揭示了一个有趣的弱点:迁移版模型在街头霸王Alpha 3的"控场"战术上表现不佳,只有16%的准确率。研究团队推测,这可能是因为控场战术高度依赖游戏特定的远程招式,而这些招式在不同游戏中的动画效果、出招时机、轨迹和空间效果差异很大,所以比进攻和防守这种更通用的行为难以迁移。
七、这一切意味着什么
回到最初的那个问题:游戏里的NPC到底是真正"活着"的角色,还是只是会动的像素?这项研究给出了一个充满希望的答案——通过巧妙地把NPC的战术控制和游戏的视觉物理规律分离开来,AI生成的游戏世界里的NPC可以真正拥有自己的"思考方式"。
对于游戏行业来说,这意味着未来可能出现一种全新的游戏开发方式:开发者不再需要为每个NPC手工编写复杂的行为脚本,只需要给AI一个高层的战术描述,AI就能自动生成符合这个战术的NPC行为。更妙的是,一旦训练好了一套"战术控制器",它就可以被复用到不同的游戏中,大大降低开发成本。
对于普通玩家来说,这意味着未来的AI生成游戏可能会变得更有挑战性和趣味性。你不再是在跟一个只会按剧本表演的木偶对战,而是在跟一个真正会根据局势调整战术的"AI对手"较量。这种对抗带来的乐趣,正是电子游戏的精髓所在。
当然,研究团队也坦诚地指出了目前的局限性。整个研究只在2D格斗游戏这一种类型上做了测试,能不能推广到第一人称射击游戏、多人战略游戏或者其他类型的游戏,还需要进一步验证。另外,目前的扩散模型生成速度还比较慢,无法做到真正的实时交互,距离一个完全可玩的AI游戏引擎还有一段距离。未来可能需要结合自回归视频生成技术和模型蒸馏技术来提升运行速度。
说到底,这项研究最大的价值或许不在于它本身实现了什么,而在于它指出了一个被长期忽视的方向:AI生成的虚拟世界不应该只关注"主角视角",而应该让每一个角色都拥有自己的存在感。当虚拟世界里的每个角色都开始真正"思考"时,那个世界才算得上是一个有生命力的世界。下次当你玩游戏遇到一个特别难缠的对手时,也许它的"狡猾"就来自于类似ReactiveGWM这样的技术。对这项研究的技术细节感兴趣的读者,记得通过arXiv:2605.15256这个编号去查阅完整论文,里面还有更多精彩的技术细节等着你去发现。
Q&A
Q1:ReactiveGWM和普通的游戏世界模型有什么不一样?
A:普通的游戏世界模型只关注玩家自己,把NPC当成背景的一部分,NPC的所有行为都被写死在提示词里。ReactiveGWM则把玩家控制和NPC控制分成两套独立系统,玩家的按键操作通过一种叫"附加偏置"的方式注入模型,而NPC的高层战术(比如进攻、防守、控场)通过专门的注意力模块来控制,这样NPC就能根据指令自主执行不同的战术,而不是按剧本表演。
Q2:ReactiveGWM能不能用在不同的游戏上?
A:可以,而且不需要重新训练。研究团队发现,ReactiveGWM学到的NPC战术控制模块可以像"器官移植"一样直接搬到其他游戏的模型上。他们在街头霸王II上训练的战术模块,可以直接装到街头霸王Alpha 3的普通模型里使用,画面风格保持原样不变,但NPC立刻就能听懂战术指令了。不过控场类战术因为依赖游戏特定的远程招式,迁移效果会稍差一些。
Q3:ReactiveGWM现在能让我玩到吗?
A:目前还不能直接玩。这是一项研究性质的工作,研究团队在两款经典街头霸王游戏上做了验证,证明了技术的可行性。但因为底层用的是扩散模型,生成画面的速度比较慢,还做不到真正的实时游戏体验。研究团队提到,未来需要结合更快的视频生成技术和模型压缩技术,才能把它变成一个真正可以玩的AI游戏引擎。