世界模型无疑是最近具身智能领域最热的话题之一。
从面向机器人通用能力持续演进的 foundation model,到 world action model、video prediction、latent prediction 等不同技术路线,越来越多公司和团队开始把“预测未来”视作下一阶段具身智能的重要突破口。
4月16日,Physical Intelligence 发布 π0.7,进一步强调多模态上下文、语言 coaching 与视觉 subgoal 在机器人泛化中的作用;今年2月,DreamZero 论文提出 world action model 路线,尝试将未来状态预测与动作生成统一起来;3月,NVIDIA 也在 GTC 上预告了基于 DreamZero 研究的 GR00T N2。
世界模型,正在从一个研究概念,迅速进入具身智能的核心讨论区。
热度持续升高之后,行业里最值得追问的,已经不再是“要不要做世界模型”,而是它究竟应该为机器人补上哪一块能力。
4月18日,在「具身智能之心」举行的线上主题论坛“具身世界模型”中,原力无限首席科学家、香港大学助理教授/博导陈佳玉围绕这一话题,分享了他对具身世界模型的判断与思考。
相比围绕某一条具体路线做站队式讨论,他更关心的是另一层问题:世界模型到底能不能提升机器人对现实世界的理解、推理和决策能力。
这也是今天具身智能讨论世界模型时最需要回到的原点。
具身智能发展到现在,行业已经越来越清楚,仅靠感知和模仿,还不足以支撑机器人在真实世界中稳定完成复杂任务。机器人当然要看见环境、识别目标、复现动作,但这还不够。它还需要在动作发生之前,对未来可能出现的状态变化、物体之间的交互关系,以及任务执行后的结果,形成预判。
因此,世界模型之所以重要,正在于它对应的是机器人执行之前那部分能力:理解、推演、判断,然后再行动。
世界模型的讨论,不能停留在“把未来画出来”这一层
在论坛中,陈佳玉教授首先提到,世界模型并不是一个突然冒出来的新概念。
如果把时间线拉长,它最早可以追溯到 model-based reinforcement learning 中对 dynamics function 的建模,后来又逐步延伸到视频生成、隐空间预测,以及具身任务里的 world action model 等不同方向。形式一直在变化,但核心问题没有变:模型不能只学“该做什么动作”,还要学“这个世界接下来会发生什么”。
也正因为如此,陈佳玉认为,今天具身智能的技术路径仍远谈不上收敛,世界模型本身也还处在持续分化和演进之中。当前行业里并行存在多条路线:有的把世界模型当作 simulator,用来支持规划;有的把它作为生成数据的工具;也有的尝试把未来状态预测和动作生成放到同一个框架里处理。
方向还在分化,答案也没有定型。但有一点已经越来越清楚:对世界动态的建模能力,正在成为下一阶段具身智能竞争中的关键能力之一。
不过,陈佳玉在讨论中反复强调,世界模型的讨论不能停留在“生成未来画面”这一层。
这恰恰是今天外界最容易产生误解的地方。随着视频生成模型快速发展,很多人会很自然地把世界模型理解成一种“画出未来”的能力,仿佛画面越逼真、越连贯,模型就越强。但对机器人来说,画面质量从来不是唯一标准,更不是核心标准。
机器人所在意和关心的,从来不是未来画面本身有多好看,而是这些预测有没有进入决策链路,有没有帮助它更准确地理解交互、判断空间关系、选择下一步动作。
一个模型即便能够生成更完整、更细腻的未来视频,也不意味着它已经理解了物体关系,理解了任务结构,理解了动作与结果之间的对应关系。
陈佳玉在论坛中提到,今天业内对世界模型的评价,很多时候仍然过于依赖 visual quality,甚至习惯用视频生成效果去间接证明模型能力。但如果这些预测并没有带来操控、执行和决策上的实际提升,那么这种能力就很难说真正进入了机器人系统的核心。
因此,世界模型在具身智能中的价值,并不取决于它把未来画得有多细,而取决于它能不能把与任务相关的关键信息提炼出来。哪些位置可以交互,哪些关系会变化,哪些动作会影响结果,哪些空间结构对执行有决定性作用,这些内容远比像素本身更重要。
从这个角度看,世界模型更像是机器人理解世界、推演后果、辅助决策的一层中间能力。未来状态预测当然重要,但并不是所有未来信息都值得同等建模。对机器人真正有用的,通常是那些与 affordance、物体交互、空间结构和动作后果直接相关的部分。
对原力无限来说,世界模型从来不是一个孤立概念
这也解释了为什么,在原力无限的技术框架里,世界模型从来不是被单独拎出来讨论的热点词汇。
原力无限的技术路线以持续学习 VLA 与因果世界融合模型为核心技术底座,并以全栈 AI Infra 构建数据与模型飞轮,目标是为机器人打造真正理解世界的大脑。在这个框架里,世界模型并不是孤立存在的一块拼图,它需要和持续学习、因果推理、数据闭环、工程化训练体系一起工作,最终支撑一个能够持续进化的具身智能系统。

这也是陈佳玉教授在论坛中重点提到原力无限坚持走“融合模型”路线的原因。
在他的判断里,VLA 与世界模型之间并不是简单的替代关系。VLA 更擅长把语言、视觉与动作对齐,形成直接的感知—执行链路;世界模型则更偏向于处理世界动态、未来状态和交互后果的建模问题。前者解决的是执行链条中的对齐与落地,后者补充的是动作之前的推演与判断。
因此,问题并不在于两者谁取代谁,而在于怎样把两种能力接起来,形成既有执行精度、又有推理深度的机器人系统。
这类差异,表面看是模型路线之争,往下看其实是系统能力之争。世界模型成为热点之后,行业会出现很多新概念、新说法、新包装,但最终能拉开差距的,还是这些能力能否进入真实机器人系统,能否在部署中持续起作用,能否成为机器人稳定依赖的一部分。
模型之外,真正决定上限的还有数据与系统能力
围绕数据来源,陈佳玉的判断也同样克制。
当前行业里,一个很典型的争议是:具身世界模型究竟应该更多依赖互联网视频做预训练,还是应该尽快转向原生的 ego-centric 机器人数据。
对这个问题,陈佳玉并没有给出简单的立场式回答。他更倾向于把问题拆开看。
在预训练阶段,互联网视频的大规模和多样性依然非常重要,它仍然是模型获得广泛先验和泛化能力的重要来源。但当机器人真正进入交互阶段之后,数据的重要性会明显发生变化。
高质量的真机数据、第一视角数据,以及部署之后持续回流的数据,会越来越成为决定系统表现的关键。
这和近期行业的一些进展其实是相互印证的。π0.7 延续的是一种更强调数据异质性、多模态条件与训练组织方式的思路;DreamZero 也说明,把视频与动作共同建模,的确有可能让机器人更有效地从异构数据中学习,而不是长期依赖高重复、强约束的单一示范。
陈佳玉在直播中还提出了一个很有启发性的判断:未来具身智能的数据体系,未必会长期停留在各家单独建设、彼此割裂的状态,而有可能逐步走向更规范化的数据协作,甚至形成某种“数据联盟”形态。
这个判断背后,其实对应的是更底层的产业问题。具身智能一旦从实验室走向更广泛的部署,决定模型上限的就不只是一篇论文、一个结构或者一套损失函数了。
数据标准、采集规范、处理效率、反馈机制、闭环速度,这些系统层面的能力,会越来越直接地影响模型进化速度,也会越来越深地影响产品最终能否落地。
这也是为什么,陈佳玉在讨论世界模型时,始终没有把问题缩小到某一篇论文、某一个架构或者某一条热点路线。他讨论的是一整条能力链:从世界理解,到未来推演;从数据获取,到模型训练;从视频生成,到动作生成;从一次任务完成,到长期持续学习。
这样的视角,决定了他的很多判断,并没有停留在“哪个模型更火”“哪个范式更像未来”这样的表层问题上,而是在不断把讨论往更深处推进:机器人究竟需要怎样的能力,世界模型又应该为真实部署解决什么问题。
这也是原力无限在这类前沿议题上逐渐形成辨识度的原因之一。
从成立之初,原力无限就强调从具身大脑的整体目标出发,判断哪些能力必须建立,哪些路径值得长期投入,哪些技术最终能够沉淀为机器人在真实世界中的稳定能力。

*截止2026年4月,原力无限完成的具身大脑关键技术突破与学术汇总
当世界模型成为行业热点,讨论自然会越来越多,分歧也会越来越多。热度本身并不稀缺,概念也不稀缺,真正稀缺的是把这些能力沉到机器人系统内部,沉到数据闭环里,沉到实际部署中,最后变成机器人可以反复调用、稳定依赖的能力。
从这个意义上说,陈佳玉在这场论坛里谈的并不只是世界模型本身。他讨论的,是具身智能下一阶段究竟该往哪里走;也是机器人要靠什么,才能从“会看、会动”,继续走向“会理解、会推演、会决策”。