营收翻三倍、许可收入翻42倍：Momenta 的物理AI 开启加速度

过去三年，全球科技行业几乎所有重大的故事都围绕着同一个词展开：大模型。到了2026年，一个新的概念开始被频繁提及，几乎所有的科技巨头都将资源押注于这个方向：物理AI（Physical AI）。

前者诞生了GPT。人们第一次意识到，当AI掌握了语言规律和人类常识，能力会出现爆炸式的跃迁。短短数年间，搜索、编程、办公、内容生产，几乎被重写了一遍。

越来越多的人意识到，这可能只是个开端。人类绝大部分的经济活动，并不在数字世界，而是发生在真实的物理世界里。

驾驶、物流、制造、零售、家庭服务、工业生产，这些构成全球经济基石的活动，都依赖现实世界的交互。因此，下一代人工智能的竞争——理解世界，也成了巨头们的必争之地。

英伟达黄仁勋将物理AI定义为下一个重大产业机遇；特斯拉则将自动驾驶视为通往通用机器人和现实世界智能的入口；OpenAI也在探索能够理解和操作真实世界的Agent系统。

它们都在试图回答，当AI离开屏幕以后，如何理解一个充满物理规律、因果关系和不确定性的世界？

答案逐渐清晰，且指向了同一个新的基础模型范式：世界模型（World Model）。

6月23日，Momenta在港交所刊发聆讯后资料集，正式进入IPO冲刺阶段，两个月前其R7世界模型刚刚实现量产首发，世界模型第一次拥有了被资本市场公开定价的商业标的，自动驾驶也迎来了新的重估时刻。

当AI开始理解世界

要理解世界模型和Momenta R7，要先理解ChatGPT为什么成功。

大语言模型的本质是在做“预测”，它通过互联网海量文本，学习语言的规律和人类常识，然后预测“下一个词”，进而推理、总结、创作，甚至接近人的认知能力。

但物理AI需要做另一种预测：下一秒，世界会发生什么？

比如，苹果是如何做自由落体运动。比如，一辆车正在通过十字路口时，前车突然减速，行人正在闯红灯，还有一辆偏离路线的自行车。

世界模型需要预测的是：谁会移动？朝哪个方向移动？哪些行为会带来风险？自己的下一步动作会如何改变整个环境？

如果说，大语言模型掌握的是语言世界的规律，世界模型掌握的则是物理世界的规律。

它不仅需要知道发生了什么，更能推演为什么发生，以及接下来会发生什么。它因此被视为物理AI时代的Foundation Model，掌握世界模型，AI才真正开始具备“物理常识”。这也被很多业内人士视为物理AI的“GPT时刻”。

Momenta R7的三层架构，对应了物理AI从“认知”到“训练”到“进化”的完整过程。

第一层，是世界模型预训练（World Model Pre-training）。给AI建立物理世界的基础常识。

Momenta基于超过120亿公里真实驾驶里程，从海量场景中提炼出约1亿段黄金数据，通过视频预测和因果学习，把现实世界的常识压缩进模型里。

第二层，是世界模型仿真（World Model Simulation）。现实世界的危险场景往往比较罕见，连续碰撞、极端天气、复杂施工等长尾场景，靠路测很难覆盖。世界模型可以在数字世界中生成近乎无限的训练环境，让AI反复演练。而且Momenta的仿真不是纯渲染生成，而是通过真实数据学习世界演化规律，再用实车数据做校准，减少“仿真和现实”的差距。

第三层，是世界模型中的强化学习（World Model Reinforcement Learning）。这与大模型的强化学习逻辑类似，模型在虚拟世界中不断试错，系统根据结果给予奖励和惩罚。经过数百万次迭代之后，模型逐渐学会更安全、更高效、更像人的驾驶行为。

举一个具体场景的例子，如果前车掉落一箱苹果，R7能预判苹果滚落的轨迹与扩散范围，提前平稳减速避让，这就是世界模型的理解能力。

为了让这套三层架构跑起来，Momenta做出了高强度的持续研发投入。招股书显示，Momenta 2025年全年研发投入达18.69亿元，占年度收入的77.5%，近三年累计研发投入46.6亿元。截至2025年底，公司拥有研发人员1157名，占比近82%，超过三分之二拥有硕士及以上学历。

这让Momenta成为全球首个实现无图城市NOA全国覆盖、首个实现端到端大模型量产、首个实现强化学习量产的第三方智驾公司，R7世界模型也是行业首个量产落地。

为什么是自动驾驶

回头来看，为什么物理AI率先在自动驾驶行业爆发，而不是机器人？

答案在于数据和商业规模。

数字AI之所以能爆发，是因为互联网已经积累了海量文本数据。物理AI需要的是另一种资源，即真实世界的交互数据。

具身智能行业今天仍然面临一个根本性难题，真实交互数据太少。绝大多数机器人公司部署规模仍然有限，一家公司可能只有几百台、几千台机器人在运行，数据规模不够，模型无法形成真正的Scaling。

但自动驾驶不一样。路上跑的每一辆智能汽车都是一台移动的机器人，也是一台天然的物理世界数据采集器。

行人横穿马路、暴雨拥堵、临时施工改道、外卖骑手逆行、人车混行……这些长尾与泛化数据比互联网文本更难获得，同时也更具价值。路上的汽车，每天都在记录真实世界的运行状态。

目前搭载Momenta系统的量产车辆已超90万台，累计定点车型超210款。2022年Momenta交付首个10万辆量产车耗时两年，而如今完成10万辆交付最快已经不到40天。

这种加速意味着数据飞轮已经转起来了。CIC灼识咨询的数据显示，中国城市NOA解决方案渗透率预计将从2025年的11%飙升至2030年的62%。在增量市场爆发之际，市场份额向头部聚集，2025年3月至2026年2月，Momenta在中国第三方城市NOA市场销量市占率达到65%。

某种意义上来说，自动驾驶是全球唯一同时实现了数据Scaling和商业Scaling的物理AI场景。这也是为什么物理AI的“GPT时刻”，可能最先出现在自动驾驶。

为什么第一股是Momenta？

任何基础模型的竞争，都要回到本质的三种能力：模型、数据和资本。在这三个维度上，公司之间的差距正在迅速拉大。

首先是数据壁垒。自动驾驶和大语言模型一样，都遵循规模定律（Scaling Law），数据量越大，模型性能越好。这意味着，先积累数据的公司拥有巨大的先发优势。

截至目前，Momenta已经积累超过120亿公里实车里程，并拥有中国第三方城市NOA市场约65%的份额。数据飞轮已经开始形成。更多车辆带来更多数据，更多数据训练出更强模型，更强模型又会吸引更多合作伙伴，这种正反馈与大模型时代如出一辙。

其次是商业闭环。物理AI远比数字AI烧钱，训练通用物理AI所需投入可能达到百亿乃至千亿美元级别，没有稳定现金流，绝大多数企业无法坚持到技术成熟的那一天。

Momenta CEO 曹旭东曾提出“门票理论”。要实现通用物理AI，一定要有巨量现金流业务。而Momenta的一个“飞轮两条腿”，由L2++业务提供数据和现金流；L4自动驾驶和未来物理AI则持续拉高技术天花板。

招股书显示，Momenta近三年营收实现跨越式增长：从2023年的7.43亿元增长至2025年的24.13亿元，三年翻三倍，年均复合增长率超80%。截至2025年底，公司现金储备超100亿元。

一个值得注意的数字是：其许可收入从2023年的0.23亿元增长到2025年的9.68亿元，翻了42倍。许可收入“高边际收益”的属性，意味着后续增长的弹性会越来越大。

此外，Momenta的股东阵容极其豪华，汇聚了全球最核心的产业和科技战略投资人，以及全球顶级财务投资人。产业资本囊括了全球汽车产业链的核心玩家，包括：上汽、通用、奔驰、丰田、比亚迪、现代、奇瑞等7家全球顶级车企，以及博世集团、德赛西威、立讯精密等头部产业链合作伙伴，和Uber、Grab、Stone Venture等Robo合作伙伴。科技巨头则包括腾讯、阿里云、蚂蚁集团、京东等。财务投资人更是覆盖了淡马锡、IDG、阿曼投资局、亦庄国投、Granite Asia、顺为、蔚来资本、凯辉基金、云锋基金、蓝湖资本、创新工场、真格基金、鼎晖投资、高榕创投、高成资本、众为资本、愉悦资本、钟鼎资本、盈峰资本、招银国际、华泰创新资本、混沌资本、春华资本、大湾区基金、国新基金、光速光合、锦秋基金等全球最顶尖投资机构。超豪华、多元化的股东阵营，不仅为Momenta提供了战略和资本支持，还从业务协同、用户增长和全球化布局等方面助力了Momenta高速增长。

最后，是世界模型带来的技术代差。这里有一个技术判断：Momenta使用世界模型的方式，与行业主流存在本质区别。

业内普遍做法是，将世界模型作为一个“仿真工具”，先用世界模型生成虚拟数据，再去训练或测试一个独立的主模型，但Momenta的做法不一样，它试图让世界模型直接成为基座模型的一部分。

这种代差，使世界模型从一个”辅助工具”变成了一个”超级放大器”。系统的产品性能和能力上限，可能不是10%的提升，而是10倍甚至100倍的代际差距。R7 之所以能在短时间内快速进化，核心正是在此。

物理AI第一股将诞生

自动驾驶只是起点，真正让资本市场兴奋的，并不是城市NOA（城市导航辅助驾驶）本身，而是世界模型带来的泛化能力。

物理规律是通用的，汽车、Robotaxi、物流车、人形机器人，本质上都生活在同一个物理世界。只要模型学会理解空间、预测运动、推理因果，原则上它可以驱动任何需要与物理世界交互的载体。

Momenta 正在将这一逻辑付诸实践。其用同一套底层技术架构All-in-One Platform，同时覆盖四条业务线：乘用车量产智驾、Robotaxi（无人出租车）、Robovan（无人物流车）、Robotruck（无人卡车）。底层技术的跨场景复用，极大地摊销了多业务线的研发成本。

CIC灼识咨询的数据显示，到2030年，仅Robotaxi、Robovan和Robotruck三个市场的全球规模合计就将达到约2000亿美元。

在全球化布局方面，Momenta的量产方案已在亚洲、欧洲、大洋洲、拉美和北非的10多个国家和地区落地。Robotaxi已与Uber、Grab、Lumo、享道出行等全球出行平台以及梅赛德斯-奔驰等车企建立合作，目前已落地亚洲、欧洲和中东地区。

未来，其同一套底层系统架构还有可能延伸到具身智能等领域，边际成本迅速下降，而商业空间则呈指数级扩大。

Granite Asia高级管理合伙人李宏玮表示：Momenta在全球率先采用“两条腿”策略，基于“数据飞轮”技术洞察，量产辅助驾驶（Mass Production）与自动驾驶（Scalable Robo）并行，以世界模型为基座，让物理AI从技术理念走向现实生活。随着公司迈向公开市场，其在数据规模、算法壁垒和全球化商业拓展上的绝对优势，正在形成不可替代的竞争护城河，这也为其未来的估值空间打开了极具想象力的上限。我们对Momenta长期的成长性充满信心。

要理解当前Momenta的商业路径，或许可以用两家公司来参照。

一是“不造车的特斯拉”。两者都采用端到端架构、无图模式、世界模型、强化学习，与 Momenta 高度趋同。两者都坚持用L2++量产车采集海量真实数据，再不断逼近L4级能力。

不同的是，特斯拉造车，而Momenta只做智驾平台。截至目前，Momenta 已与全球前 10 大车企中的 9 家建立合作。以奔驰为例，从 2017 年投资 Momenta 到 2025 年底量产落地，历时 8 年，但一旦突破，速度就加快，2024 年 Momenta 已拿下了奔驰所有电车和油车的智驾业务。

二是“物理世界的Anthropic”。Anthropic不做硬件、不做消费端产品，通过Claude模型率先在软件编程领域跑通了商业闭环，再逐步向金融、医疗、法律等领域扩展。Momenta的路径与之类似，以L2++量产智驾完成数据和现金流积累，再将技术优势快速泛化到 Robotaxi、Robovan、Robotruck 等更广泛的物理 AI 场景。

如果这个类比成立，那么 Momenta 的终局定位就不再只是一家”智驾供应商”，而是物理 AI 时代的 Android，一个开放的、平台级的操作系统提供商。

曹旭东有一个判断：”任何一个人工智能应用，一旦接近人类的水平，就会在很短的时间内大幅超过人类的水平。”这句话如果适用于自动驾驶，那就意味着，前面十年、二十年的爬坡可能只是开始，真正的爆发可能发生在一两年之内。

从这个角度看，Momenta上市，其意义在于资本市场第一次为“物理AI基座模型”标出价格。

ChatGPT之后，下一个改变世界的AI革命会发生在哪里？答案已经开始浮现。

文章原文