原力无限科技集团

世界模型无疑是最近具身智能领域最热的话题之一。

从面向机器人通用能力持续演进的 foundation model，到 world action model、video prediction、latent prediction 等不同技术路线，越来越多公司和团队开始把“预测未来”视作下一阶段具身智能的重要突破口。

4月16日，Physical Intelligence 发布 π0.7，进一步强调多模态上下文、语言 coaching 与视觉 subgoal 在机器人泛化中的作用；今年2月，DreamZero 论文提出 world action model 路线，尝试将未来状态预测与动作生成统一起来；3月，NVIDIA 也在 GTC 上预告了基于 DreamZero 研究的 GR00T N2。

世界模型，正在从一个研究概念，迅速进入具身智能的核心讨论区。

热度持续升高之后，行业里最值得追问的，已经不再是“要不要做世界模型”，而是它究竟应该为机器人补上哪一块能力。

4月18日，在「具身智能之心」举行的线上主题论坛“具身世界模型”中，原力无限首席科学家、香港大学助理教授/博导陈佳玉围绕这一话题，分享了他对具身世界模型的判断与思考。

相比围绕某一条具体路线做站队式讨论，他更关心的是另一层问题：世界模型到底能不能提升机器人对现实世界的理解、推理和决策能力。

这也是今天具身智能讨论世界模型时最需要回到的原点。

具身智能发展到现在，行业已经越来越清楚，仅靠感知和模仿，还不足以支撑机器人在真实世界中稳定完成复杂任务。机器人当然要看见环境、识别目标、复现动作，但这还不够。它还需要在动作发生之前，对未来可能出现的状态变化、物体之间的交互关系，以及任务执行后的结果，形成预判。

因此，世界模型之所以重要，正在于它对应的是机器人执行之前那部分能力：理解、推演、判断，然后再行动。

世界模型的讨论，不能停留在“把未来画出来”这一层

在论坛中，陈佳玉教授首先提到，世界模型并不是一个突然冒出来的新概念。

如果把时间线拉长，它最早可以追溯到 model-based reinforcement learning 中对 dynamics function 的建模，后来又逐步延伸到视频生成、隐空间预测，以及具身任务里的 world action model 等不同方向。形式一直在变化，但核心问题没有变：模型不能只学“该做什么动作”，还要学“这个世界接下来会发生什么”。

也正因为如此，陈佳玉认为，今天具身智能的技术路径仍远谈不上收敛，世界模型本身也还处在持续分化和演进之中。当前行业里并行存在多条路线：有的把世界模型当作 simulator，用来支持规划；有的把它作为生成数据的工具；也有的尝试把未来状态预测和动作生成放到同一个框架里处理。

方向还在分化，答案也没有定型。但有一点已经越来越清楚：对世界动态的建模能力，正在成为下一阶段具身智能竞争中的关键能力之一。

不过，陈佳玉在讨论中反复强调，世界模型的讨论不能停留在“生成未来画面”这一层。

这恰恰是今天外界最容易产生误解的地方。随着视频生成模型快速发展，很多人会很自然地把世界模型理解成一种“画出未来”的能力，仿佛画面越逼真、越连贯，模型就越强。但对机器人来说，画面质量从来不是唯一标准，更不是核心标准。

机器人所在意和关心的，从来不是未来画面本身有多好看，而是这些预测有没有进入决策链路，有没有帮助它更准确地理解交互、判断空间关系、选择下一步动作。

一个模型即便能够生成更完整、更细腻的未来视频，也不意味着它已经理解了物体关系，理解了任务结构，理解了动作与结果之间的对应关系。

陈佳玉在论坛中提到，今天业内对世界模型的评价，很多时候仍然过于依赖 visual quality，甚至习惯用视频生成效果去间接证明模型能力。但如果这些预测并没有带来操控、执行和决策上的实际提升，那么这种能力就很难说真正进入了机器人系统的核心。

因此，世界模型在具身智能中的价值，并不取决于它把未来画得有多细，而取决于它能不能把与任务相关的关键信息提炼出来。哪些位置可以交互，哪些关系会变化，哪些动作会影响结果，哪些空间结构对执行有决定性作用，这些内容远比像素本身更重要。

从这个角度看，世界模型更像是机器人理解世界、推演后果、辅助决策的一层中间能力。未来状态预测当然重要，但并不是所有未来信息都值得同等建模。对机器人真正有用的，通常是那些与 affordance、物体交互、空间结构和动作后果直接相关的部分。

对原力无限来说，世界模型从来不是一个孤立概念

这也解释了为什么，在原力无限的技术框架里，世界模型从来不是被单独拎出来讨论的热点词汇。

原力无限的技术路线以持续学习 VLA 与因果世界融合模型为核心技术底座，并以全栈 AI Infra 构建数据与模型飞轮，目标是为机器人打造真正理解世界的大脑。在这个框架里，世界模型并不是孤立存在的一块拼图，它需要和持续学习、因果推理、数据闭环、工程化训练体系一起工作，最终支撑一个能够持续进化的具身智能系统。

这也是陈佳玉教授在论坛中重点提到原力无限坚持走“融合模型”路线的原因。

在他的判断里，VLA 与世界模型之间并不是简单的替代关系。VLA 更擅长把语言、视觉与动作对齐，形成直接的感知—执行链路；世界模型则更偏向于处理世界动态、未来状态和交互后果的建模问题。前者解决的是执行链条中的对齐与落地，后者补充的是动作之前的推演与判断。

因此，问题并不在于两者谁取代谁，而在于怎样把两种能力接起来，形成既有执行精度、又有推理深度的机器人系统。

这类差异，表面看是模型路线之争，往下看其实是系统能力之争。世界模型成为热点之后，行业会出现很多新概念、新说法、新包装，但最终能拉开差距的，还是这些能力能否进入真实机器人系统，能否在部署中持续起作用，能否成为机器人稳定依赖的一部分。

模型之外，真正决定上限的还有数据与系统能力

围绕数据来源，陈佳玉的判断也同样克制。

当前行业里，一个很典型的争议是：具身世界模型究竟应该更多依赖互联网视频做预训练，还是应该尽快转向原生的 ego-centric 机器人数据。

对这个问题，陈佳玉并没有给出简单的立场式回答。他更倾向于把问题拆开看。

在预训练阶段，互联网视频的大规模和多样性依然非常重要，它仍然是模型获得广泛先验和泛化能力的重要来源。但当机器人真正进入交互阶段之后，数据的重要性会明显发生变化。

高质量的真机数据、第一视角数据，以及部署之后持续回流的数据，会越来越成为决定系统表现的关键。

这和近期行业的一些进展其实是相互印证的。π0.7 延续的是一种更强调数据异质性、多模态条件与训练组织方式的思路；DreamZero 也说明，把视频与动作共同建模，的确有可能让机器人更有效地从异构数据中学习，而不是长期依赖高重复、强约束的单一示范。

陈佳玉在直播中还提出了一个很有启发性的判断：未来具身智能的数据体系，未必会长期停留在各家单独建设、彼此割裂的状态，而有可能逐步走向更规范化的数据协作，甚至形成某种“数据联盟”形态。

这个判断背后，其实对应的是更底层的产业问题。具身智能一旦从实验室走向更广泛的部署，决定模型上限的就不只是一篇论文、一个结构或者一套损失函数了。

数据标准、采集规范、处理效率、反馈机制、闭环速度，这些系统层面的能力，会越来越直接地影响模型进化速度，也会越来越深地影响产品最终能否落地。

这也是为什么，陈佳玉在讨论世界模型时，始终没有把问题缩小到某一篇论文、某一个架构或者某一条热点路线。他讨论的是一整条能力链：从世界理解，到未来推演；从数据获取，到模型训练；从视频生成，到动作生成；从一次任务完成，到长期持续学习。

这样的视角，决定了他的很多判断，并没有停留在“哪个模型更火”“哪个范式更像未来”这样的表层问题上，而是在不断把讨论往更深处推进：机器人究竟需要怎样的能力，世界模型又应该为真实部署解决什么问题。

这也是原力无限在这类前沿议题上逐渐形成辨识度的原因之一。

从成立之初，原力无限就强调从具身大脑的整体目标出发，判断哪些能力必须建立，哪些路径值得长期投入，哪些技术最终能够沉淀为机器人在真实世界中的稳定能力。

*截止2026年4月，原力无限完成的具身大脑关键技术突破与学术汇总

当世界模型成为行业热点，讨论自然会越来越多，分歧也会越来越多。热度本身并不稀缺，概念也不稀缺，真正稀缺的是把这些能力沉到机器人系统内部，沉到数据闭环里，沉到实际部署中，最后变成机器人可以反复调用、稳定依赖的能力。

从这个意义上说，陈佳玉在这场论坛里谈的并不只是世界模型本身。他讨论的，是具身智能下一阶段究竟该往哪里走；也是机器人要靠什么，才能从“会看、会动”，继续走向“会理解、会推演、会决策”。