具身智能的技术竞赛,正在从“谁的模型更大”转向“谁的模型更懂物理世界”。
过去两年,行业经历了一轮密集的路线验证期。Physical Intelligence的π0系列点燃了VLA端到端路线的热度,各家团队迅速跟进,把大规模真机数据采集和更大参数量的模型作为竞争的主轴。
到了2026年,行业讨论又往前走了一步:仅仅让机器人“看见”当前场景已经不够,模型是否还能进一步“想象”未来,并据此生成动作,开始成为新的研究焦点。围绕这一方向,世界动作模型(World Action Model)以及更统一的World-Action建模思路逐渐升温,不少团队开始尝试把未来状态预测与动作生成放进同一个生成式框架中。
但逐渐地,一个结构性的问题也开始暴露出来:视频模型“想象”出的未来画面,信息太多;而动作决策真正需要的信号,却往往极其稀疏、极其精确。
一张未来的RGB画面里,有光照变化、纹理细节、背景移动,也有大量与“机器人下一步该怎么动”无关的像素。机器人真正需要的,可能只是画面中某个很小区域里的一个接触点。让动作解码器直接从这类稠密视觉表征中“捞”出控制所需的稀疏信号,本质上是在让模型做一件并不符合其表征优势的事。
这并非“再多训一训”就能解决的问题,而是一个典型的架构层面错配。
原力无限团队对此有一个很直接的判断:
“世界模型和动作生成之间,不能只有一根隐式的信息管道。模型看到了完整的未来,但控制需要的只是其中与交互相关的那一小部分。如果不在架构层面把这两件事显式地分开处理,模型的世界理解能力就会被浪费在噪声里。”
近日,原力无限(INFIFORCE)联合香港大学、上海交通大学的研究团队正式发布论文《AIM:Intent-Aware Unified World Action Modeling with Spatial Value Maps》,直接回应了这个问题——并给出了一个结构性的答案。

图1|AIM与典型统一世界动作模型的核心差异:AIM在未来视频预测与动作生成之间,引入了空间价值图作为显式接口。
AIM的解法
给机器人装一个“意图滤镜”
AIM的核心设计可以用一句话概括:在“想象未来”和“生成动作”之间,插入一个显式的空间价值图(Spatial Value Map),作为连接两者的接口。
具体来说,AIM在预测未来画面的同时,会同步生成一张与画面严格对齐的空间价值图。这张图不是全图均匀的热力图,而是精确标注了“此刻任务需要机器人在哪里发生交互”的空间分布——抓取任务中标注的是夹爪与物体的接触区域,放置任务中标注的是物体与目标支撑面的接触区域。
动作解码器不再直接“看”未来的RGB画面。它只能通过空间价值图来获取关于未来的信息。
这个设计的精妙之处在于:它没有丢弃视频预测模型的能力,而是在信息流的路径上做了一次结构性的“蒸馏”。视频模型依然负责预测完整的视觉动态——物体会怎么移动、场景会怎么变化。但这些稠密信息在到达动作解码器之前,被空间价值图“过滤”成了控制所需的稀疏空间信号。
论文中把这个机制定义为Intent-Causal Attention(意图因果注意力)——通过注意力掩码的设计,强制规定动作token只能关注价值图token,而不能直接关注未来的视频token。信息的因果路径是单向的:视频→价值图→动作。
技术架构朝一体化迈进
AIM不是把几个独立模块拼在一起的pipeline,而是在一个统一的生成式架构内完成三件事的协同建模:

图2|AIM整体框架:在统一生成式架构中联合建模未来视频、空间价值图与动作,并通过两阶段训练完成从监督学习到自蒸馏强化学习的优化。
第一,视频预测。基于Wan2.2-TI2V-5B预训练视频生成模型,AIM采用多视角拼接策略,将机器人头部摄像头和左右手腕摄像头的画面合并为一张T-pose画布,在不修改预训练模型视觉接口的前提下接入多视角输入。
第二,空间价值图生成。价值图与RGB画面共享同一个VAE编码器,在同一条flow-matching去噪轨迹上联合生成。这意味着价值图的生成是与视觉预测同频共振的过程。
第三,动作生成。采用Mixture-of-Transformers架构,视频分支和动作分支共享自注意力层但保持独立的前馈网络。动作分支通过Intent-Causal Attention仅从价值图获取未来信息,然后解码出连续的双臂控制向量。
整个框架的训练分为两个阶段:
Stage I:联合监督学习。同时训练视频预测、价值图生成和动作预测三个任务,loss是RGB flow-matching损失、价值图flow-matching损失和逆动力学动作损失的加权和。
Stage II:自蒸馏强化学习。冻结视频模型和价值图分支,仅更新动作头。奖励信号由两部分组成——环境给出的稀疏任务完成信号,以及模型自己预测的价值图提供的稠密空间奖励。当机器人预测的动作落点投影到价值图的高值区域时,获得更高的奖励。
后者是一个特别值得关注的设计。通过让冻结的价值图分支作为“内部评判者”来指导动作头优化,AIM实现了一种自蒸馏式的策略提升:模型用自己对“哪里该交互”的理解来继续训练“如何去交互”,在 Stage II 中不再依赖额外人工奖励标注。
AIM以94.0% / 92.1%成绩
登顶RoboTwin 2.0
在 RoboTwin 2.0 benchmark 的公开对比中,AIM在 50 个仿真操控任务上取得了 Easy 94.0%、Hard 92.1%、Average 93.1% 的当前最优结果。论文表 2 显示,AIM在 Easy、Hard 和 Average 三项指标上均位列所有对比方法首位,整体超过 Fast-WAM、LingBot-VA、Motus、π0.5 等代表性方法。

相比 π0.5,AIM 在 Easy/Hard 下分别提升 +11.3% 和 +15.3%;相比 Motus 分别提升 +5.3% 和 +5.0%。
数字本身的领先幅度已经足够说明问题,但更值得关注的是,AIM的提升并不是在所有任务上均匀分布的。
提升最显著的,恰恰是那些“接触敏感”和“阶段依赖”的任务。

比如“放置鼠标垫”(97%/95%)、“扫描物体”(100%/98%)、“转动开关”(100%/98%)——这些任务的共同特点是,机器人必须精确地知道在哪个位置、以什么姿态与物体或环境发生物理接触。仅仅知道“场景接下来会怎么变”是不够的,必须精确定位交互区域。
这正是空间价值图的核心价值所在。它把一个“从稠密视觉中隐式推断”的问题,转化成了一个“在显式空间标注中直接查找”的问题。
论文同时提供了定性分析:价值图的高亮区域确实集中在有意义的交互位置,而非泛化的显著性区域;预测的动作落点确实落在对应的高值区域内。这说明模型的性能提升来自于设计意图中的“空间桥接”机制,而不是某种统计捷径。

图3|AIM在RoboTwin 2.0中的代表性任务执行过程。左侧为Easy设定,右侧为Hard设定,涵盖鼠标垫放置、订书机按压、物体扫描、开关旋转和笔记本开启等典型接触型任务。
30K轨迹数据集
让“交互意图”成为可训练信号
除了模型本身,原力无限团队还构建了一个包含30,000条操控轨迹的仿真数据集,每条轨迹都包含同步的多视角视频、动作序列和价值图标注。
价值图的标注方式本身也值得一提。团队利用仿真器的接触检测API,在夹爪成功抓取物体的瞬间提取接触顶点,投影到图像平面并进行高斯平滑,生成连续的接触热力图。放置任务则在物体达到稳定状态后提取接触区域。高斯核宽度根据相机参数和深度自适应调整,确保不同视角下标注的空间覆盖范围合理。
这套标注方法论将“空间交互意图”从一个抽象概念变成了可量化、可训练的监督信号,为后续研究提供了标准化的基础设施。
从AtomVLA到AIM
一条具身大脑的演进路线
从 AtomVLA 对预测式潜在世界模型后训练路径的探索,到持续学习 VLA 对长期进化能力的推进,再到因果世界模型对未来推演与反事实建模的补强,AIM 更像是这条技术路线向控制层的一次自然延伸。
2025年,AtomVLA。原力无限发布首个小尺寸高效VLA模型,验证了在有限参数量下实现视觉-语言-动作端到端建模的可行性,在轻量化具身大脑方向上迈出第一步。
2025年底,持续学习VLA多模态模型。团队将研究重心推向模型的持续学习能力——并不单纯训练一个固定的模型,而是构建一个能随新任务、新场景不断进化的学习框架。这是从“单次训练”到“持续进化”的范式跳跃。
2026年初,因果世界模型。团队开始将因果推理能力引入世界建模——让机器人不仅能预测“会发生什么”,还能推演“为什么会发生”以及“如果换一种做法会怎样”。
2026年4月,AIM。空间价值图的提出,解决的是这条技术路线上的下一个关键问题:当世界模型已经能预测未来状态时,怎样让这个预测真正高效地服务于控制?AIM给出的答案是——在认知层和执行层之间,建立一条显式的、编码了交互意图的信息通路。
如果说过去不少工作在解决的是“机器人能不能看到未来”,那么AIM更进一步解决的,是“看到未来之后,哪些信息才真正值得拿来做控制”。空间价值图的提出,让未来预测第一次以一种更显式、更可训练、也更面向交互的方式服务于动作生成。
相比单纯的成绩领先,这可能才是AIM更重要的意义。
论文地址:https://arxiv.org/pdf/2604.11135