营收翻三倍、许可收入翻42倍:Momenta 的物理AI 开启加速度

过去三年,全球科技行业几乎所有重大的故事都围绕着同一个词展开:大模型。到了2026年,一个新的概念开始被频繁提及,几乎所有的科技巨头都将资源押注于这个方向:物理AI(Physical AI)。

前者诞生了GPT。人们第一次意识到,当AI掌握了语言规律和人类常识,能力会出现爆炸式的跃迁。短短数年间,搜索、编程、办公、内容生产,几乎被重写了一遍。

越来越多的人意识到,这可能只是个开端。人类绝大部分的经济活动,并不在数字世界,而是发生在真实的物理世界里。

驾驶、物流、制造、零售、家庭服务、工业生产,这些构成全球经济基石的活动,都依赖现实世界的交互。因此,下一代人工智能的竞争——理解世界,也成了巨头们的必争之地。

英伟达黄仁勋将物理AI定义为下一个重大产业机遇;特斯拉则将自动驾驶视为通往通用机器人和现实世界智能的入口;OpenAI也在探索能够理解和操作真实世界的Agent系统。

它们都在试图回答,当AI离开屏幕以后,如何理解一个充满物理规律、因果关系和不确定性的世界?

答案逐渐清晰,且指向了同一个新的基础模型范式:世界模型(World Model)。

6月23日,Momenta在港交所刊发聆讯后资料集,正式进入IPO冲刺阶段,两个月前其R7世界模型刚刚实现量产首发,世界模型第一次拥有了被资本市场公开定价的商业标的,自动驾驶也迎来了新的重估时刻。

当AI开始理解世界

要理解世界模型和Momenta R7,要先理解ChatGPT为什么成功。

大语言模型的本质是在做“预测”,它通过互联网海量文本,学习语言的规律和人类常识,然后预测“下一个词”,进而推理、总结、创作,甚至接近人的认知能力。

但物理AI需要做另一种预测:下一秒,世界会发生什么?

比如,苹果是如何做自由落体运动。比如,一辆车正在通过十字路口时,前车突然减速,行人正在闯红灯,还有一辆偏离路线的自行车。

世界模型需要预测的是:谁会移动?朝哪个方向移动?哪些行为会带来风险?自己的下一步动作会如何改变整个环境?

如果说,大语言模型掌握的是语言世界的规律,世界模型掌握的则是物理世界的规律。

它不仅需要知道发生了什么,更能推演为什么发生,以及接下来会发生什么。它因此被视为物理AI时代的Foundation Model,掌握世界模型,AI才真正开始具备“物理常识”。这也被很多业内人士视为物理AI的“GPT时刻”。

Momenta R7的三层架构,对应了物理AI从“认知”到“训练”到“进化”的完整过程。

第一层,是世界模型预训练(World Model Pre-training)。给AI建立物理世界的基础常识。

Momenta基于超过120亿公里真实驾驶里程,从海量场景中提炼出约1亿段黄金数据,通过视频预测和因果学习,把现实世界的常识压缩进模型里。

第二层,是世界模型仿真(World Model Simulation)。现实世界的危险场景往往比较罕见,连续碰撞、极端天气、复杂施工等长尾场景,靠路测很难覆盖。世界模型可以在数字世界中生成近乎无限的训练环境,让AI反复演练。而且Momenta的仿真不是纯渲染生成,而是通过真实数据学习世界演化规律,再用实车数据做校准,减少“仿真和现实”的差距。

第三层,是世界模型中的强化学习(World Model Reinforcement Learning)。这与大模型的强化学习逻辑类似,模型在虚拟世界中不断试错,系统根据结果给予奖励和惩罚。经过数百万次迭代之后,模型逐渐学会更安全、更高效、更像人的驾驶行为。

举一个具体场景的例子,如果前车掉落一箱苹果,R7能预判苹果滚落的轨迹与扩散范围,提前平稳减速避让,这就是世界模型的理解能力。

为了让这套三层架构跑起来,Momenta做出了高强度的持续研发投入。招股书显示,Momenta 2025年全年研发投入达18.69亿元,占年度收入的77.5%,近三年累计研发投入46.6亿元。截至2025年底,公司拥有研发人员1157名,占比近82%,超过三分之二拥有硕士及以上学历。

这让Momenta成为全球首个实现无图城市NOA全国覆盖、首个实现端到端大模型量产、首个实现强化学习量产的第三方智驾公司,R7世界模型也是行业首个量产落地。

为什么是自动驾驶

回头来看,为什么物理AI率先在自动驾驶行业爆发,而不是机器人?

答案在于数据和商业规模。

数字AI之所以能爆发,是因为互联网已经积累了海量文本数据。物理AI需要的是另一种资源,即真实世界的交互数据。

具身智能行业今天仍然面临一个根本性难题,真实交互数据太少。绝大多数机器人公司部署规模仍然有限,一家公司可能只有几百台、几千台机器人在运行,数据规模不够,模型无法形成真正的Scaling。

但自动驾驶不一样。路上跑的每一辆智能汽车都是一台移动的机器人,也是一台天然的物理世界数据采集器。

行人横穿马路、暴雨拥堵、临时施工改道、外卖骑手逆行、人车混行……这些长尾与泛化数据比互联网文本更难获得,同时也更具价值。路上的汽车,每天都在记录真实世界的运行状态。

目前搭载Momenta系统的量产车辆已超90万台,累计定点车型超210款。2022年Momenta交付首个10万辆量产车耗时两年,而如今完成10万辆交付最快已经不到40天。

这种加速意味着数据飞轮已经转起来了。CIC灼识咨询的数据显示,中国城市NOA解决方案渗透率预计将从2025年的11%飙升至2030年的62%。在增量市场爆发之际,市场份额向头部聚集,2025年3月至2026年2月,Momenta在中国第三方城市NOA市场销量市占率达到65%。

某种意义上来说,自动驾驶是全球唯一同时实现了数据Scaling和商业Scaling的物理AI场景。这也是为什么物理AI的“GPT时刻”,可能最先出现在自动驾驶。

为什么第一股是Momenta?

任何基础模型的竞争,都要回到本质的三种能力:模型、数据和资本。在这三个维度上,公司之间的差距正在迅速拉大。

首先是数据壁垒。自动驾驶和大语言模型一样,都遵循规模定律(Scaling Law),数据量越大,模型性能越好。这意味着,先积累数据的公司拥有巨大的先发优势。

截至目前,Momenta已经积累超过120亿公里实车里程,并拥有中国第三方城市NOA市场约65%的份额。数据飞轮已经开始形成。更多车辆带来更多数据,更多数据训练出更强模型,更强模型又会吸引更多合作伙伴,这种正反馈与大模型时代如出一辙。

其次是商业闭环。物理AI远比数字AI烧钱,训练通用物理AI所需投入可能达到百亿乃至千亿美元级别,没有稳定现金流,绝大多数企业无法坚持到技术成熟的那一天。

Momenta CEO 曹旭东曾提出“门票理论”。要实现通用物理AI,一定要有巨量现金流业务。而Momenta的一个“飞轮两条腿”,由L2++业务提供数据和现金流;L4自动驾驶和未来物理AI则持续拉高技术天花板。

招股书显示,Momenta近三年营收实现跨越式增长:从2023年的7.43亿元增长至2025年的24.13亿元,三年翻三倍,年均复合增长率超80%。截至2025年底,公司现金储备超100亿元。

一个值得注意的数字是:其许可收入从2023年的0.23亿元增长到2025年的9.68亿元,翻了42倍。许可收入“高边际收益”的属性,意味着后续增长的弹性会越来越大。

此外,Momenta的股东阵容极其豪华,汇聚了全球最核心的产业和科技战略投资人,以及全球顶级财务投资人。产业资本囊括了全球汽车产业链的核心玩家,包括:上汽、通用、奔驰、丰田、比亚迪、现代、奇瑞等7家全球顶级车企,以及博世集团、德赛西威、立讯精密等头部产业链合作伙伴,和Uber、Grab、Stone Venture等Robo合作伙伴。科技巨头则包括腾讯、阿里云、蚂蚁集团、京东等。财务投资人更是覆盖了淡马锡、IDG、阿曼投资局、亦庄国投、Granite Asia、顺为、蔚来资本、凯辉基金、云锋基金、蓝湖资本、创新工场、真格基金、鼎晖投资、高榕创投、高成资本、众为资本、愉悦资本、钟鼎资本、盈峰资本、招银国际、华泰创新资本、混沌资本、春华资本、大湾区基金、国新基金、光速光合、锦秋基金等全球最顶尖投资机构。超豪华、多元化的股东阵营,不仅为Momenta提供了战略和资本支持,还从业务协同、用户增长和全球化布局等方面助力了Momenta高速增长。

最后,是世界模型带来的技术代差。这里有一个技术判断:Momenta使用世界模型的方式,与行业主流存在本质区别。

业内普遍做法是,将世界模型作为一个“仿真工具”,先用世界模型生成虚拟数据,再去训练或测试一个独立的主模型,但Momenta的做法不一样,它试图让世界模型直接成为基座模型的一部分。

这种代差,使世界模型从一个”辅助工具”变成了一个”超级放大器”。系统的产品性能和能力上限,可能不是10%的提升,而是10倍甚至100倍的代际差距。R7 之所以能在短时间内快速进化,核心正是在此。

物理AI第一股将诞生

自动驾驶只是起点,真正让资本市场兴奋的,并不是城市NOA(城市导航辅助驾驶)本身,而是世界模型带来的泛化能力。

物理规律是通用的,汽车、Robotaxi、物流车、人形机器人,本质上都生活在同一个物理世界。只要模型学会理解空间、预测运动、推理因果,原则上它可以驱动任何需要与物理世界交互的载体。

Momenta 正在将这一逻辑付诸实践。其用同一套底层技术架构All-in-One Platform,同时覆盖四条业务线:乘用车量产智驾、Robotaxi(无人出租车)、Robovan(无人物流车)、Robotruck(无人卡车)。底层技术的跨场景复用,极大地摊销了多业务线的研发成本。

CIC灼识咨询的数据显示,到2030年,仅Robotaxi、Robovan和Robotruck三个市场的全球规模合计就将达到约2000亿美元。

在全球化布局方面,Momenta的量产方案已在亚洲、欧洲、大洋洲、拉美和北非的10多个国家和地区落地。Robotaxi已与Uber、Grab、Lumo、享道出行等全球出行平台以及梅赛德斯-奔驰等车企建立合作,目前已落地亚洲、欧洲和中东地区。

未来,其同一套底层系统架构还有可能延伸到具身智能等领域,边际成本迅速下降,而商业空间则呈指数级扩大。

Granite Asia高级管理合伙人李宏玮表示:Momenta在全球率先采用“两条腿”策略,基于“数据飞轮”技术洞察,量产辅助驾驶(Mass Production)与自动驾驶(Scalable Robo)并行,以世界模型为基座,让物理AI从技术理念走向现实生活。随着公司迈向公开市场,其在数据规模、算法壁垒和全球化商业拓展上的绝对优势,正在形成不可替代的竞争护城河,这也为其未来的估值空间打开了极具想象力的上限。我们对Momenta长期的成长性充满信心。

要理解当前Momenta的商业路径,或许可以用两家公司来参照。

一是“不造车的特斯拉”。两者都采用端到端架构、无图模式、世界模型、强化学习,与 Momenta 高度趋同。两者都坚持用L2++量产车采集海量真实数据,再不断逼近L4级能力。

不同的是,特斯拉造车,而Momenta只做智驾平台。截至目前,Momenta 已与全球前 10 大车企中的 9 家建立合作。以奔驰为例,从 2017 年投资 Momenta 到 2025 年底量产落地,历时 8 年,但一旦突破,速度就加快,2024 年 Momenta 已拿下了奔驰所有电车和油车的智驾业务。

二是“物理世界的Anthropic”。Anthropic不做硬件、不做消费端产品,通过Claude模型率先在软件编程领域跑通了商业闭环,再逐步向金融、医疗、法律等领域扩展。Momenta的路径与之类似,以L2++量产智驾完成数据和现金流积累,再将技术优势快速泛化到 Robotaxi、Robovan、Robotruck 等更广泛的物理 AI 场景。

如果这个类比成立,那么 Momenta 的终局定位就不再只是一家”智驾供应商”,而是物理 AI 时代的 Android,一个开放的、平台级的操作系统提供商。

曹旭东有一个判断:”任何一个人工智能应用,一旦接近人类的水平,就会在很短的时间内大幅超过人类的水平。”这句话如果适用于自动驾驶,那就意味着,前面十年、二十年的爬坡可能只是开始,真正的爆发可能发生在一两年之内。

从这个角度看,Momenta上市,其意义在于资本市场第一次为“物理AI基座模型”标出价格。

ChatGPT之后,下一个改变世界的AI革命会发生在哪里?答案已经开始浮现。

文章原文