需求从工具转向结果,SaaS会死在重生的路上么?丨ToB产业观察

自从ChatGPT问世的那天起,SaaS行业已死的声音就充斥在软件行业内部。年初,Anthropic 在其智能体平台Claude Cowork上发布了面向企业法务的自动化插件,这一举动导致了当时美股SaaS公司的股票几乎全线崩盘。

但SaaS行业并不是被AI“杀死”,而更像是在AI加持下,重获新生。那次暴跌,表面上是Anthropic的一个插件戳破了SaaS高毛利的泡沫,但本质上,它是人类社会在技术代际更替时的本能阵痛。软件的形态会变,但人类利用工具解决问题的需求永远不会消失。

从“订阅服务”到“交付结果”

传统的“软件即服务”模式,其线性流程、订阅制收费与固化的产品逻辑,在AI的“涌现”能力面前,显得日益局促。尤其在财务这一高度专业化、强合规、重流程的领域,变革的压力与机遇尤为显著。

当我们把时间拨回生成式AI问世之前,SaaS行业的核心价值在于“标准化工具输出”,通过将传统线下流程线上化、标准化,解决企业效率低下、管理混乱等痛点,本质上是“线下流程的线上复刻”。

以财务SaaS为例,早期的财务软件、报销系统,核心功能集中在单据录入、流程审批、报表生成等基础环节,虽然实现了财务工作的线上化,但其底层逻辑依然是“流程驱动”,用户必须按照预设的固定流程操作,软件仅承担“流程载体”的角色,无法主动识别需求、优化决策,更无法实现财务工作的价值升级。

商业模式上,SaaS行业的基石是订阅制。企业为客户提供标准化的软件工具,按年或按月收取许可费用。这种模式的核心是“卖工具”,即客户购买的是软件的使用权,至于工具用得好不好、产生了多少价值,与厂商的收入并无直接关联。然而,在AI时代,这一逻辑正在被彻底颠覆。

传统软件收费对标的是“软件”本身,客户会将其与同类软件进行价格比较。马春荃坦言,一开始,合思以传统的软件模式推销其AI审核功能时,遇到了巨大阻力。因为客户仍在用“软件”的尺子丈量AI的价值,陷入性价比的泥潭。但当他们将定价逻辑切换为“按替代人工带来的效率提升和审核准确率收费”时,局面豁然开朗。

而这也引发了马春荃的自我思考,他与笔者分享了那段思路历程,“瓦特发明蒸汽机不按煤收费,我们也不按Token收费,那是‘卖煤’的逻辑。我们按‘马力’收费。”

而这种思考也意味着,AI SaaS厂商的价值锚点,从客户对算力资源的“消耗”,转移到了AI所创造的“产出”(替代的人力、提升的准确率、规避的风险)。这一定价范式的转换,使得客户更容易衡量投资回报率(ROI),也将厂商的利益与客户的业务成功深度捆绑。

AI重塑SaaS价值边界

生成式AI的出现,不仅仅是改变了SaaS持续多年的商业模式,AI技术的出现,还彻底打破了传统SaaS行业的发展瓶颈,推动SaaS行业从“流程驱动”向“价值驱动”转型,这种转型并非简单的“AI+SaaS”叠加,而是底层逻辑的重构。对此,合思CEO马春荃强调:“AI对SaaS的影响,不是在原有软件上增加一个AI插件,而是从产品设计、技术研发、商业模式到组织架构的全方位重构,是‘AI原生’的变革。我们不再是用AI改造产品,而是用AI构建产品。”这种“AI原生”的变革,正在从三个维度重塑SaaS行业的价值边界。

其一,技术层面,AI重构SaaS产品的核心能力,从“工具属性”向“智能属性”升级。传统财务SaaS产品的核心是“流程固化”,通过预设的代码逻辑,实现财务流程的线上流转,其核心竞争力在于流程的完整性和稳定性。而AI原生的财务SaaS产品,核心能力在于“智能推理”,通过大模型技术,实现对财务数据的自动识别、分析、推理和决策,打破了传统流程的刚性约束。

马春荃明确指出,合思公司正从“卖工具的SaaS公司”进化为“提供AI员工的RaaS(Robot as a Service)服务商”。这一转变的核心理念是 “By AI, For AI, Of Finance” ,其中“By AI”即利用AI生成代码,重构产品底层逻辑,不再依赖人工编码;“For AI”即优化数据环境,为AI提供标准化、高质量的数据底座,让AI能够高效理解财务场景的隐性规则;“Of Finance”即确保AI Agent归属于财务部门,遵循财务合规与风控要求,避免AI陷入“为个体便利而突破规则”的误区。

其二,商业模式层面,AI推动SaaS行业从“订阅收费”向“价值收费”转型。长期以来,SaaS行业的主流商业模式是“订阅制”,即企业按照使用时长、用户数量等维度支付订阅费用,这种模式的核心痛点在于“价值与价格脱节”——企业支付的费用仅对应“工具使用权限”,而非工具带来的实际价值,导致很多企业虽然购买了SaaS产品,但因使用效率不高、价值感知不强,出现续费率偏低的问题。艾瑞咨询数据显示,2024年中国财务SaaS行业的平均续费率为68%,其中中小微企业的续费率不足50%,核心原因就是“价值感知不足”。

AI技术的落地,为SaaS行业的商业模式变革提供了可能。马春荃告诉笔者,合思已经彻底放弃了传统的订阅制模式,转向“按结果付费”的商业模式“用户不再支付固定的订阅费用,而是按照AI提供的实际价值付费,”马春荃如是说。

例如“审核一单付费10元”“优化一笔成本节省付费比例”等。这种模式的核心逻辑,是将SaaS产品的价值与客户的实际收益绑定,让客户能够清晰感知到AI带来的价值。马春荃分享了一个典型案例:某客户原本对合思的产品持怀疑态度,采用“按结果付费”模式后,由于AI审核效率提升、风控能力增强,客户的财务成本降低了30%,最终客户的充值额较传统订阅模式翻了5倍,且续购意愿极强。

这种商业模式的变革,正在重塑SaaS行业的竞争逻辑。未来,SaaS企业的核心竞争力不再是“产品功能的完整性”,而是“价值输出的能力”。

与此同时,面对“软件行业已经灭亡”的提问,马春荃部分认同该观点,他指出,未来的软件形态将发生巨变,核心价值将从代码本身,转向其承载的数据、算法与持续的服务能力。软件可能变得“日抛型”或成为一种隐形的“数字基建”,而显性的价值则由其上运行的AI员工来创造。

这预示着SaaS公司的终极形态,可能不再是软件公司,而是AI服务公司。马春荃将之比作从“卖炊具”到“卖厨子”的转变。客户不再需要关心“锅碗瓢盆”(软件)如何制造,只需“雇佣厨子”(AI员工)来做出“美味菜肴”(完成工作)。基于此,马春荃将合思的自身定位升级为“AI驱动的财务收支管理与服务伙伴”,强调“伙伴”关系,意味着双方必须从冰冷的甲乙方,转变为共同训练、管理和优化AI员工的协同作战关系。

其三,服务逻辑层面,AI推动SaaS行业从“被动响应”向“主动服务”转型。传统SaaS行业的服务模式是“被动响应式”,即客户遇到问题后,主动联系SaaS企业的客服人员,客服人员再根据问题进行解答或优化,这种服务模式的效率低下,且无法提前预判客户的需求。而AI时代的SaaS服务,通过AI Agent的自主学习和推理能力,能够主动识别客户的需求,提前提供解决方案,实现“主动服务”。

值得注意的是,AI对SaaS行业的破壁,并非一蹴而就的过程,而是一个“循序渐进、逐步渗透”的过程。对此,马春荃坦言,合思的转型并非预设好的“一刀切”,而是在实践中不断试错、不断优化的结果——最开始,合思只是想改造产品,但后来发现仅改产品无法解决问题,必须重构商业模式和组织生产关系;在转型过程中,也曾遇到“新旧引擎切换”的风险,即旧的订阅模式现金流减少,而新的“按结果付费”模式尚未形成规模,一度面临“损益崩盘”的风险。但正是这种持续试错、持续迭代的态度,让合思在AI原生转型中找到了正确的方向,也为整个SaaS行业提供了宝贵的实践经验。

仍面临挑战

虽然AI为SaaS行业带来了巨大的发展机遇,但在实际转型过程中,尤其是财务SaaS细分赛道,依然面临着诸多痛点和挑战。财务工作的核心属性是“合规性”“准确性”“保密性”,这与AI技术的“不确定性”“数据依赖性”存在天然的矛盾;另一方面,传统SaaS企业的组织惯性、客户的思维惯性,也成为AI原生转型的重要阻碍。

具体来看,财务领域面临的首要挑战与其他行业应用AI面临的挑战“如出一辙”,那就是数据。AI技术的高效运行,依赖于高质量、标准化的数据底座,而财务数据的“碎片化”“非标准化”“私密性”,成为制约AI在财务SaaS领域落地的核心瓶颈。对此,马春荃指出:“数据治理是AI落地的最大障碍之一,我们不试图在脏数据上直接跑AI,而是通过‘收敛’数据环境,为AI提供干净、标准化的数据。”

具体来看,财务数据的治理困境主要体现在三个方面:一是数据碎片化,企业的财务数据分散在不同的系统中,如报销系统、核算系统、税务系统等,不同系统的数据格式不统一、口径不一致,导致AI无法高效整合和分析;二是非标准化,不同企业的财务流程、核算标准、风控规则存在差异,甚至同一企业的不同部门,财务数据的录入规范也不统一,导致AI难以识别和理解;三是数据私密性,财务数据涉及企业的核心商业机密,如营收数据、成本数据、税务数据等,企业对数据安全的要求极高,而AI技术的训练和运行,需要大量的财务数据作为支撑,这就形成了“数据需求”与“数据安全”的矛盾。

针对这一痛点,合思的转型路径值得借鉴——通过“数据收敛+隐性规则萃取”的方式,破解数据治理困境。一方面,合思通过技术手段,对企业的非结构化数据(如发票、录音、合同等)进行标准化处理,对复杂的嵌套数据进行扁平化处理,适应AI的注意力机制;另一方面,通过“深度现场部”深入客户现场,挖掘客户财务工作中的隐性规则,将这些未写在纸面上的规则转化为AI可理解的语言,填补“合规与合格”之间的鸿沟。

马春荃举例说明:“证监会的财报审核逻辑、国资委的穿透式监管要求,这些隐性规则不会上网,大模型也无法直接获取,只有深入客户现场,才能将这些规则萃取出来,让AI能够适配专业场景的需求。”

此外,为了确保数据安全,合思采用了“通用大模型+加强版小模型”的混合架构,针对大型企业提供私有化部署方案,使用国产大模型,确保数据不出域,既满足合规要求,又通过算法调优保证准确率。这种“数据治理+安全保障”的双重路径,为AI在财务SaaS领域的落地奠定了基础。

除了数据层面的阻碍之外,“人类思维惯性”也是阻碍AI在财务领域落地的一大掣肘。无论是SaaS企业内部,还是客户层面,都存在严重的思维惯性,这种惯性成为AI原生转型的重要阻碍。马春荃坦言,转型过程中最大的挑战之一,就是“思维的惯性”——包括企业内部的思维惯性和客户的思维惯性。

从企业内部来看,传统SaaS企业的组织架构、工作流程、考核机制,都是围绕“流程驱动”的产品设计的,员工已经习惯了“按流程做事”,对AI原生的“模型驱动”“价值驱动”逻辑难以适应。

例如,传统的产品经理习惯于“需求调研-功能设计-代码开发-测试上线”的流程,而AI原生的产品设计,需要产品经理具备“AI思维”,能够将业务需求转化为AI可执行的Skills,而非传统的写代码;传统的销售团队习惯于“卖工具、讲功能”,而AI时代的销售,需要“卖价值、讲结果”,这对销售团队的专业能力提出了更高的要求。马春荃提到,合思为了打破内部的思维惯性,组建了独立于组织之外的“小组”,负责将业务需求转化为AI可执行的Skills,同时重构了内部的工作流和考核机制,推动员工从“流程思维”向“AI思维”转型。

从客户层面来看,客户的思维惯性主要体现在“价格对标”和“需求固化”两个方面。马春荃分享了一个典型案例:某客户在对接合思的AI产品时,始终用传统财务软件的价格来对标,认为合思的产品价格过高,即使合思的AI产品能够为其节省大量的人力成本,客户依然难以接受。后来,合思改变了报价逻辑,不再与传统软件对标,而是与人类员工的价值对标——AI审核一单的成本远低于人工审核,且效率更高、准确率更高,客户瞬间接受了报价,甚至愿意支付更高的费用。马春荃表示:“客户的思维惯性,本质上是对AI价值的不理解,我们需要做的,是引导客户从‘软件思维’转向‘AI思维’,让客户明白,他们购买的不是工具,而是AI员工创造的价值。”

此外,客户的需求固化也成为转型的阻碍。很多客户依然习惯于“按流程操作”,对AI的“自主决策”“主动服务”能力存在疑虑,担心AI会出现错误、突破合规边界。针对这一问题,合思采用“渐进式落地”的方式,先从简单的重复性工作(如单据录入、基础审核)入手,让客户逐步体验AI带来的效率提升,再逐步拓展到复杂的决策支撑、风控管理等环节;同时,通过“审计留痕”“推理日志”等功能,让AI的决策过程可追溯、可验证,消除客户的疑虑。

对于SaaS行业而言,AI不仅是技术升级的工具,更是价值重构的核心引擎,它打破了传统SaaS的流程束缚,重构了商业模式和服务逻辑,拓展了行业的价值边界。

当AI不再仅是卖工具,而是要让用户能看见价值。从“卖软件”到“卖结果”,背后的逻辑其实很朴素——客户从来不需要一堆功能列表,他们要的就是问题被解决、成本降下来、风险被管住。

(文|Leo张ToB杂谈,作者|张申宇,编辑丨杨林)

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

Continue Reading需求从工具转向结果,SaaS会死在重生的路上么?丨ToB产业观察

AI不再拼模型:OpenAI 与 Anthropic 开始争夺“企业入口”

(本文作者为 ICT解读者一老解,钛媒体经授权发布)

文 | ICT解读者—老解

20265月初,美国AI行业的双子星——OpenAIAnthropic,以近乎同步的节奏,抛出了各自的企业级合资/联合实体方案,为AI行业的竞争格局按下了换挡键。

OpenAI宣布与TPGBrookfieldBain CapitalSoftBank等投资巨头联手,推进一个目标规模达100亿美元的AI部署联合实体;几乎在同一时间,Anthropic也携手BlackstoneGoldman SachsHellman & Friedman,推动成立了一家规模约15亿美元的企业AI服务公司。

从表面上看,这只是两笔围绕合资结构的资本运作,但从行业深层视角解读,这更像是一次高度一致的战略转向——它清晰地指向了一个关键且略显冷酷的现实:AI竞争的核心,正在从谁的模型更强转向谁能真正进入企业

曾经那个拼参数、拼Benchmark、拼谁更聪明的技术竞赛阶段正在逐步退场,一个拼渠道、拼落地、拼谁能真正卖出去大分发时代,正在加速到来。

AI行业的叙事逻辑,正从模型能力竞争,转向分发与交付竞争

一、双线布局:OpenAI与Anthropic的合资棋局

两场相隔仅一天的发布,看似偶然,实则是两家头部AI公司对行业趋势的共同判断,只是各自的发力重点截然不同,勾勒出两条差异化的企业级布局路径。

54日,OpenAI推进成立的面向企业AI部署的联合实体(业内称为“The Deployment Company”),以100亿美元的目标规模成为行业焦点,但这笔交易的核心并非资金本身,而是投资方背后的企业网络与决策层资源。

TPGBrookfield等全球顶级投资机构,覆盖了大量企业客户与被投公司生态,对OpenAI而言,这相当于获得了一条直达企业决策层的潜在分发通道。TPG 执行合伙人就明确表示:我们为 OpenAI 带来的不仅是 100 亿美元的资金,更是我们全球投资组合中超过 2000 家大型企业的准入入口。”

因此,与其说这是一次融资,不如说是一种典型的以股权换分发权的结构安排,用部分利益出让,换取更快触达企业核心需求的能力。

次日,Anthropic所关联资本推动的15亿美元规模企业AI服务公司,则走出了一条与OpenAI不同的路径——它更强调深度服务交付,而非单纯的渠道拓展。

其目标并非扩大API调用量,而是帮助企业将Claude模型嵌入客服、法务、财务、代码开发与安全体系等具体业务场景。黑石集团与 H&F声明将为这家全新的企业服务公司开启绿色通道,让 AI 快速渗透进从物流到医疗的各行各业;高盛也表示将提供深厚的金融行业洞察,助力打造针对全球资本市场的高端 AI 解决方案。

Anthropic管理层判断,企业市场对模型的需求增长速度,已开始超过单一交付方式的承载能力:“对于财富 500 强企业而言,仅仅通过 API 调用模型是不够的。他们需要的是能够深度理解其专有数据、符合严苛合规要求,并能无缝嵌入现有复杂工作流的定制化方案”。

这一判断直接指向了AI商业化最现实的瓶颈:模型能力的重要性在下降,交付能力的重要性在上升。

过去两年围绕模型的炼金术,正在让位于更现实的地面战

过去,行业叙事几乎完全围绕模型展开;但当模型能力跨过某个阈值后,企业客户的关注点开始发生位移:他们不再迷信谁的Benchmark更高,而是更在意谁的方案更容易部署、谁能处理复杂的私有数据、谁能带来更具确定性的投资回报率。

技术优势不再自动转化为商业优势,在模型与收入之间,横亘着一整条复杂的交付链条。

这也解释了为何OpenAIAnthropic会不约而同地转向类似合资的结构——对于具备潜在资本市场路径的AI独角兽而言,这不仅是商业选择,也具有财务上的现实意义:通过联合实体分担销售与实施成本,在一定程度上实现利润表的结构性外置,在保持母公司轻资产特征的同时,加速企业收入规模的形成。

二、合资而非直销:AI巨头的现实选择

面对企业级市场的巨大机遇,OpenAIAnthropic为何选择合资或类似结构,而非完全依赖自建直销体系?答案的核心,在于AI公司最稀缺的资源——时间。

它们既不缺技术,也不缺资本,但在关键发展窗口期内,没有足够时间去搭建一套覆盖全球的企业销售与交付体系。

过去三年,大模型公司通过API云端实现了高速增长,在一定程度上实现了轻交付的商业模式。但随着模型能力逐渐收敛,企业决策回归现实,一系列问题浮现:谁能接入复杂数据库?谁能重构业务流程?谁能为ROI负责?

这些问题意味着,AI商业化的主战场已经从云端延伸至企业内部的最后一公里,这是一场典型的地面战役

而以TPGBlackstoneGoldman Sachs为代表的私募机构,恰恰成为这一阶段的重要支点。这些机构掌握的不只是资金,更是董事会级别关系、全球企业网络以及长期产业绑定能力——它们本身就是一套成熟的分发体系

AI公司引入这些资本时,本质上是在把分发能力外包给最成熟的企业连接器,用股权换取稀缺的渠道资源,实现快速破局。

更重要的是,企业级AI收入远比C端订阅更具资本市场说服力:它更稳定、生命周期更长,也更接近真实生产力。

在未来的估值体系中,服务多少企业很可能将比模型多强更具决定意义

自建企业销售体系当然可行,但代价是时间——Salesforce为例,其建立全球销售与交付网络耗费了近十年。而AI公司当前所面临的,是一个以12-18个月计的关键窗口期,无疑这使得借助私募资本成为了更现实的路径。

三、路径分野:OpenAI的“平台化”与Anthropic的“深度服务”

尽管都选择了类似结构,但OpenAIAnthropic在商业路径上存在本质差异,背后是两家公司不同的战略定位。

OpenAI更接近平台化逻辑。

它通过联合实体作为分发加速器,自身聚焦模型与平台能力,将具体落地交由合作伙伴完成。OpenAI 董事总经理Oliver Jay明确表示:“通过与 TPG 等战略伙伴的合作,我们正在建立 AI 时代的‘运营商分发网络’”。

与此同时,为了确保企业级客户的灵活性,OpenAI也在逐步降低对单一云平台的依赖,从过去与微软的深度绑定,转向更开放的多云分发路径。这标志着 OpenAI 正式将其企业级分发权从单一云平台扩展至全球主流基础设施,从而覆盖更广泛的存量企业市场。

相比之下,Anthropic则选择了一条更重、更深入的路径,更接近服务化模型,其背后资本推动的企业AI公司,本质上更像一个咨询+技术的复合体系。

这一模式的重要体现,是FDEForward-deployed Engineers,前哨工程师)的兴起,这一模式由Palantir等公司发扬光大,如今成为Anthropic打通企业落地最后一公里的关键。

FDE团队的核心价值,在于双向融合:工程师直接驻场企业,既懂模型底层技术,又熟悉复杂的企业业务流程,一边调优算法,一边缝合企业陈旧的ERP系统,将模型能力与业务需求深度绑定,实现技术与业务的深度融合。

FDE模式虽然人力成本更高、扩张速度受限,但能在企业内部扎根更深,更容易在金融、医疗等严监管、高门槛行业形成闭环,构建起难以被复制的竞争壁垒。

如果说OpenAI追求的是覆盖全球的广度Anthropic则在追求业务场景的厚度;两种路径各有优劣,但都指向同一个目标:更高效地完成企业落地。

四、行业重构:AI产业进入“分发为王”阶段

OpenAIAnthropic的不同布局,看似是两家公司的战略选择,实则正在重构整个AI产业的结构,或将引发一系列深远影响,推动行业进入全新的发展阶段。

最核心的变化,是AI正式进入“分发为王”的时代

随着模型技术的不断收敛,不同厂商的模型差距正在逐渐缩小,曾经的技术优势已难以构成绝对壁垒,而分发能力成为决定企业成败的关键变量——谁能更高效地触达企业、更精准地匹配需求、更顺畅地完成交付,谁就能在竞争中占据主动。

其次,私募资本已从单纯的投资者,转变为AI商业化的关键基础设施。

BlackstoneGoldman SachsTPG等机构,不再只是为AI公司提供资金支持,更凭借其庞大的企业网络和产业资源,成为AI进入企业的“桥梁”,成为AI商业化路径中的核心节点。

与此同时,FDE模式的兴起可能重塑企业软件行业的格局。

它打破了“软件只是产品”的传统认知,推动软件向“产品+人”的组合模式转型——企业需要的不再是一套冷冰冰的工具,而是能够深度适配自身业务、提供持续优化服务的解决方案,这种模式或将逐渐成为企业级AI服务的主流形态。

最后,AI行业的估值逻辑正在发生根本性转移。

未来,资本市场对AI公司的评估,将不再聚焦于单一的模型性能,而是转向更具实际商业价值的核心指标:企业客户数量、收入规模、行业渗透深度。这种估值逻辑的转变,也将进一步倒逼AI公司从“技术导向”转向“商业导向”,加速行业的商业化落地进程。

AI行业的利润池,正在从模型层,向分发与交付层迁移。

结语:

如果说过去三年,AI行业的核心命题是谁的模型最强,那么从2026年开始,这个问题正在被替换为:谁能真正把AI卖进企业,并持续产生收入。

AI越往企业里钻,企业越发现真正缺的不是模型,而是落地服务,因此整个产业正在进入分层竞争阶段:模型能力正在走向标准化,而分发能力,正在成为新的竞争壁垒。

AI商业化的下半场,最终的赢家,未必是技术最领先的公司,而更可能是那个离企业客户最近、能真正把AI插进企业心脏的公司。

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

Continue ReadingAI不再拼模型:OpenAI 与 Anthropic 开始争夺“企业入口”

奥特曼食言了,但这次没人怪他

(本文作者为 影子备忘录,钛媒体经授权发布)

文 | 影子备忘录

2026年5月6日,OpenAI的两则消息同时在科技圈炸开了锅。

第一则消息在意料之中:GPT-5.5 Instant模型正式向所有ChatGPT用户推送,免费用户也能用了。这个新模型在医疗、法律、金融等高风险场景中的虚假信息输出较前代下降了52.5%,在用户标记为事实错误的高难度对话里,不准确表述减少了37.3%,输出内容也更简洁利落。

在AIME 2025数学竞赛中,GPT-5.5 Instant拿到了81.2分,比前代的65.4分提升了将近16分;博士级科学测试GPQA得分也从78.5分上涨到了85.6分。

第二则消息则更值得玩味——OpenAI同步上线了测试版ChatGPT自助广告管理器。美国境内的广告主可以直接注册账号、设置预算、上传素材,一键投放到ChatGPT的对话里。

两件事放在一起看,意味就大不一样了:模型在迭代更新,商业化的步伐也没停过。GPT-5.5 Instant把产品体验做得更好了,背后的算力开销也水涨船高——这笔账总得有人来付。

而广告自助管理器的上线,恰恰说明了广告不再是OpenAI“万一用不上的最后手段”,而是一个正在稳步推进的既定战略。

实际上,步子已经迈出去了。OpenAI预计2026年广告收入约为25亿美元,2027年将达到110亿美元,2028年250亿美元,2029年530亿美元,到2030年更是要突破1000亿美元大关。要知道,ChatGPT的广告试点上线还不到两个月,年化收入就已经做到了1亿美元。

当AI开始主动带货,一场比想象中更深刻的范式革命,正在悄然拉开序幕。

从“最后的手段”到“必备的收入”:OpenAI为何必须拥抱广告

时间回溯到2024年5月。彼时的奥特曼在接受采访时掷地有声地放出狠话:“广告加AI让我感到特别不安。我认为广告是我们商业模式的最后手段。”甚至到了2024年的哈佛演讲,他的态度也只是稍稍松动了一点:“我个人讨厌广告,但我不是完全反对它们。”

然而仅仅两年不到,广告模块已经稳稳地嵌入到了ChatGPT的对话界面。

这背后最核心的推手,是数字不会骗人的账本逻辑。尽管OpenAI的CFO在年初透露公司2025年年化收入已突破200亿美元,但高昂的算力成本与持续的研发支出让这家AI独角兽在2025年消耗了约80亿美元现金。

换句话说,每收入1美元的背后,OpenAI的支出要远远超过进账。面对这种巨大的财务倒挂,寻找一种体量足够大、见效足够快的变现方式,已经是摆在奥特曼面前不容回避的必答题。

为什么偏偏是广告?因为整个互联网商业史已经验证了:当一项技术产品积累了庞大的用户规模和足够高频的互动场景,广告就是被反复检验过的最优解。

搜索时代,Google靠关键词广告崛起,广告年收入巅峰时期超过2000亿美元;短视频时代,抖音用信息流广告重构消费链路,重新定义了用户注意力的价值。

今天,ChatGPT每天与数亿用户对话,不仅理解意图,还能在恰到好处的时机给出“建议”——这种能力本身,就暗含着巨大的商业变现潜力。

还有一个容易被忽略的关键信号——人才。OpenAI早在2025年就从Meta挖来了负责Facebook广告业务的菲吉·西莫,担任应用业务CEO;首席产品官凯文·威尔在Instagram也曾负责广告业务;还有一位副总裁,上份工作是在谷歌的搜索广告部门做老大。

据The Information数据,截至2025年10月,已有约630名前Meta员工在OpenAI工作,占其3000名左右员工总数的20%。这帮人加入OpenAI当然不是为了搞AGI研究,他们唯一的目标就是——搞钱。而广告,是来钱最快最直接的方式。

所以,与其说OpenAI放弃了理想主义,不如说它只是被市场和商业模式推到了必须抉择的十字路口。

不是“插广告”,而是“对话即广告”

如果只是简单地把传统横幅广告贴在ChatGPT的界面上,这件事根本不值得写一篇深度文章来分析。真正值得关注的,是这套广告模式背后的逻辑——它跟传统数字广告有本质区别。

从最直观的形态来看,目前的ChatGPT广告出现在回答的底部,被打上清晰标注的“Sponsored”,与正常回答严格区分开来。当你问了一个问题,AI照常给出回答之外,底下可能会出现某款产品。

但有意思的是,在较长的对话里,ChatGPT会结合整体上下文来决定展示什么广告。

这意味着广告不再是简单的关键词匹配,而是基于整个会话语境、用户意图和上下文理解的动态决策。这也解释了一个看似巧合的更新——GPT-5.5 Instant新增了“记忆来源”功能,可以更好地利用保存的记忆、过去的聊天记录来提供个性化响应。

毕竟,用户的记忆——那些过往的对话、偏好和兴趣点——恰恰是广告推荐中最精准的信号来源。

从广告主的投放端看,这种变化更加具象。在测试版自助广告管理后台,广告主需要在一个“Ad Group”的层级中提供“上下文提示”——用短语描述自家产品在哪些对话话题中可能是合适的。

比如家装品牌可能会描述“涉及房屋改造、庭院设计、装修选购”之类的对话场景。当用户在这些场景中提问时,系统会在合适时机将广告匹配过去。

这跟传统搜索引擎的“关键词竞价”完全不是一个维度的东西。关键词竞价依然是流量思维下的产物——用户在搜索框里输入什么词,平台就匹配出相关的广告。

而ChatGPT的广告模式开始向“场景思维”迁移:不是去捕捉用户的搜索词,而是去理解用户的完整对话意图和需求状态。它试图回答的不是“用户此刻想买什么”,而是“用户正在经历一个什么样的问题场景”。

这背后还有另一层值得注意的变化。早期的ChatGPT广告仅以CPM(每千次展示付费)模式运行,起步报价高达60美元/千次展示——这个价格几乎对标的是Netflix和NFL赛事转播级别的顶级广告库存。

到了2026年4月,也就是测试启动大约三个月左右,实际成交价格已经滑落到25到45美元之间,部分渠道甚至更低。与此同时,OpenAI为广告平台新增了CPC(按点击付费)计费模式,让广告主可以直接按实际点击量来支付费用。

从CPM到CPC的扩展,本质上是OpenAI在探索这套新模式的定价逻辑:如果一个广告展示能让用户真正产生点击兴趣,那它的价值应该高于普通的品牌曝光。这也意味着,ChatGPT的广告价值体系正在从“看的人多不多”向“看的人切不契合”发生转变。

还有一个不太起眼但很重要的信号:OpenAI正在向广告主强调“我们想要测试预算,不是搜索预算”,不希望广告主把原本投在Google搜索上的预算挪过来,而是希望他们把那些用于上漏斗品牌体验的“尝鲜”预算放在ChatGPT上。

这一选择的背后有务实的考量——ChatGPT广告的转化追踪还在建设阶段,暂时无法与Google搜索那种成熟的归因体系抗衡;与其拿自己的短板去硬碰硬,不如瞄准品牌推广这个更宽容、更关注体验而非直接转化的赛道。

而这一表态背后,其实藏着OpenAI对自身广告定位的深层认知:它想做的是“决策场景广告”,而不是传统的“搜索广告”。

在决策场景里,用户正在主动获取信息、比较选项、形成判断,广告主看重的不是一次点击带来的即时转化,而是在用户决策路径中占据一个关键推荐位的能力。这正是传统展示广告和搜索广告之外的一条新赛道。

广告主的行动、观望与AI产业链的全面重构

对于广告主来说,ChatGPT广告不太可能立刻成为他们预算规划中的核心渠道,但作为战略储备和先发布局无疑值得一试。

一个显而易见的利好是进入门槛在大幅调低。今年1月封闭试点时,最低投放门槛是25万美元,很多中小品牌连试试水的心气都没有。

到2026年4月,这个门槛已经降到了5万美元;而随着自助广告管理器的全面开放,更多中小企业可以更低成本地入场。当然,目前这套管理工具首批开放的对象仍限于美国境内的广告主,全球化铺开还需要时间。

衡量转化效果的体系建设也在同步推进。OpenAI已经在Ads Manager中加入了对转化追踪像素和转化API的支持,广告主可以测量用户点击广告后的购买、注册、转化等行为。

同时,Pacvue等一批广告技术平台已经完成了与ChatGPT广告系统的技术对接,让品牌方可以直接在多个渠道的统合管理界面中运营ChatGPT广告,实现跨渠道归因分析。Pacvue方面对此有一个评价值得留意:对话式人工智能是自零售媒体兴起以来最重要的全新流量渠道。

不过,挑战同样不容回避。

最大的一道坎,是品牌安全和广告效果衡量。与传统媒体投放不同的是,AI生成式交互里没有一个固定的上下文环境——每次对话都是独一无二的,同一个关键词在不同对话中的含义可能截然不同,这使得传统的关键词屏蔽和品牌安全管控工具很难直接套用。

广告主需要向OpenAI证明,ChatGPT的对话式广告不仅能让用户看到品牌,还能真正影响到他们的购买决策。这种价值主张,远没有搜索广告或社交广告那么一目了然。

与此同时,广告的引入也在整个AI产业链中引发了一系列连锁反应。一个大趋势正在浮现:数字广告正从传统的程序化拍卖机制,逐步向“AI Agent对AI Agent”的去中介化格局演进。

零售商不再完全依赖程序化广告平台,转而开发内建广告工具和代理式AI体系,让品牌端的AI与零售端的AI直接沟通需求和库存,绕过中间环节。一些零售商已经开始借助这种方式削减10%到20%的技术成本。

虽然这些实践目前更多集中在零售行业内部,但当一个有能力理解用户意图、挖掘潜在需求的智能体成为广告传播的核心介质时,传统的效果广告生态恐怕将面临一轮深度的结构性重塑。

还有一条更具争议性的赛道叫做GEO(Generative Engine Optimization,生成式引擎优化)。简单说,就是想办法在AI的多轮对话中植入合作品牌的商品信息,可能看起来像自然流露的推荐,实则包含商业引导。

目前OpenAI公开宣称的立场是坚决反对这种做法:广告模块与回答模块完全独立,广告主没有能力影响AI的回答内容。但行业里没有人能肯定这种承诺永远不变——谁能保证五年后的AI推荐里不会出现某种隐性的商业排序?这就像当年Google广告开始出现在搜索结果页顶部的迭代,最初的边界往往是清晰的,但商业利益总在寻找并且终将找到模糊边界的缝隙。

国内大模型厂商的视角也值得关注。一位数字经济学者在新京报采访中指出,ChatGPT开始卖广告标志着生成式AI商业化正式进入第二阶段——从烧钱运营向持续盈利探索演进。对于国内厂商来说,这既是一个警示(意味着竞争格局更加激烈了),也是一个机会(变现思路正在被打开)。未来大模型厂商很可能从“单一订阅付费”转向“订阅+广告+合作营销”多路径并存的模式。

换句话说,AI广告这件事,早已不限于OpenAI一家的试验,而是整个AI产业从“资本投入期”走向“商业变现期”的关键转折点。

当你的AI开始带货,广告真正的形态是什么

写到这里,不妨把眼光放得更远一些。

当AI模型真的开始成为用户决策路径中的核心中介节点,广告产业面临的挑战远比“在对话里塞几条广告”要来得更深。

最核心的变化,在于“决策中介”角色的崛起。在传统互联网时代,搜索广告的价值建立在“当用户在某条路径上需要商品信息时,平台可以在这个节点上打一个标记”这种逻辑之上。

社交广告则依赖平台对用户兴趣画像的精准把握。但在AI助手的语境下,用户不再需要去一系列网页里自己筛选、比较、判断——AI直接在几秒钟之内帮你完成了信息聚合、逻辑推导和答案输出。

当AI同时扮演信息过滤器、判断辅助者和推荐执行者时,品牌在用户决策链中的存在感将大幅降低,除非它们能够在AI给出的推荐结果中出现。

这也是为什么说AI时代的广告竞争,不是渠道的竞争,而是对“谁站在决策入口”的竞争。

一个AI助手如果能够在用户提出“周末去哪玩”时,先于竞争对手推荐目的地,甚至主动查询当天的航班、住宿、天气并给出整套出行建议,那么这个AI助手就已经不仅仅是回答问题那么简单了——它正在成为用户决策体系中的基础设施。

从这个角度看,ChatGPT广告的真正野心,或许不在于今天投放的这几条横幅广告,而在于率先构建起一个“决策场景广告”的全新范式。

在这个范式里,广告不只是某个产品的展示,而是融入用户意图理解、场景匹配和决策推荐的闭环之中。

与此同时,围绕AI广告的商业生态也在快速成型中。OpenAI的技术合作伙伴名单里已经有Adobe、Criteo、Kargo、Pacvue、StackAdapt等一系列广告技术服务商。同时,四大广告集团Dentsu、Omnicom Group、Publicis Groupe和WPP都已与OpenAI建立合作关系。一个由AI模型驱动的广告产业链条正在加速成型。

当然,这条路不会一帆风顺。OpenAI面临的最大挑战,不是技术上的实现难度,而是如何在商业利益、用户体验和隐私保护之间走出一条平衡之路。当ChatGPT的免费版用户越来越多地看到广告推送时,用户会不会开始质疑AI的推荐是否还保持中立?

当广告收入贡献越来越大时,OpenAI有没有动机去“优化”模型参数以提升用户停留时长、增加广告库存价值?这些都不是杞人忧天的想象,而是商业史上反复上演的故事。

结语

GPT-5.5 Instant的上线,是模型本身的迭代进化。而自助广告管理器的全面开放,是OpenAI商业模式的正式重构。两件事在同一天发生,绝非巧合。

奥特曼在2024年5月说广告是“最后手段”的时候,恐怕也没想到仅仅两年后广告模块就会以如此完整的姿态嵌入ChatGPT的核心产品。

但这恰恰折射出AI产业即将面对的核心命题:当一项技术从理想主义的实验室走向服务亿万用户的商业社会时,它必须找到可持续的存在方式。

对于大模型来说,答案或许不是“要不要做广告”,而是“如何把广告做得足够好——让用户觉得有价值,让广告主觉得有回报,同时不伤害AI最宝贵的东西:信任”。

至于AI广告最终会不会成为AI时代的主流商业形态,现在下结论还为时尚早。但可以确定的是,2026年5月6日这一天,在AI产品的发展和商业化进程中,一定是一个不会被轻易遗忘的标志性节点。

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

Continue Reading奥特曼食言了,但这次没人怪他

实测纳逗 Pro:能做专业影视级内容的智能平台长啥样

作者|Cynthia

编辑| 郑玄

 

这个春天,谁的社交媒体,还没有被各种小猫炒菜、小狗做播客,酱板鸭救狐狸的 AI 视频刷屏?

魔性视频爆火的背后,AI 视频也已经跨过从能不能用到好不好用的关键节点。

能否实现 稳定产出高质量可直接商用、达标影视级甚至院线级标准 ,能否真正切入专业影视创作链条,深度适配专业级影视制作全流程,补齐当下行业空白,成为了这一阶段新的行业命题。

相应的,行业话语权,也逐渐从模型方,转移到了更了解影视行业本身,更懂审美,以及拥有丰富资源调度能力的专业影视公司以及平台方手中。

3 月 30 日,爱奇艺正式官宣发布的专业级影视制作平台纳逗 Pro,正是其中代表。通过将行业领先基座模型与爱奇艺深耕多年的影视内容制作经验深度结合,纳逗 Pro 直接将目标对准了电视剧、院线级内容从剧本生成、分镜设计到成片输出的创作全流程。

那么,纳逗 Pro 究竟体验如何?以下是我们深度测试的过程。

 

01

AI 如何打破专业内容生产的重资产壁垒

 

知名影视出品人、制片人郑林曾这样复盘过去影视行业的痛点:为一场日出光线,剧组几百人等三天;为三秒爆炸镜头,后期渲染两个月;美术部门为虚构城池打磨数月,影视行业百年以来都是重资产、长周期、高度依赖物理配合。

但在纳逗 Pro 里,我们通过一句精准提示词就能实现接近专业影视级的画面。还能自由接入爱奇艺自研奇智大模型,以及即梦、可灵、Vidu、海螺、Wan 等主流大模型最新版本,完成文、图、音、视频全模态生成。

接下来,我们重点测试一下 AI 对复杂场景的影视级还原情况。过去影视行业一直有一个调侃,横店一下雪,必出爆款,只可惜,横店几年都不会下一场雪。所以,我们打算参考《甄嬛传》《步步惊心》的雪景名场面,生成一条视频。

在上传了 AI 辅助生成的角色参考图后,我输入提示词:少女站在高大宫墙边的红色梅花树下,漫天大雪,眼中带泪,鼻尖微红。昂着头,轻声说,我想改变这一切,却促成了这一切。景别中景,镜头顺时针旋转俯拍。

生成的视频里,角色台词、背景配乐、大雪场景、略带哭腔的音色完美贴合情绪,画面质感完全是专业级水准。

更绝的是工作台中首尾帧能力带来的完整镜头衔接力:我用上一段视频的尾帧作为下一段的首帧,生成同款场景下人物低头内心独白的画面,让镜头从远景俯拍缓缓推进成近景平拍。可以看到,整个过程中,人物、背景高度统一,没有丝毫割裂感。

接下来,我又增加了难度,让镜头跟随视线拉远完成画面主角的切换。这里我故意选了三个人并排走路,并让其中一个回头又转身。

镜头随着她的眼光远远望去,是一群人(一个是身着红色官袍、乌纱帽的男生,一个带着玉头冠的老人,和一个与她长得很像的女生)在大雪中朝她远去的背影。其中那个与她长得很像的女生,转头挥手,笑着喊了一声姐姐再见,然后扭头回去继续向前,大雪中这群人的身影逐渐消失。

这里比较惊喜的是,即便提示词写的是笑着挥手,模型却读懂了告别背后的怅然与哀伤,自动补充了雪地脚步声、人物情绪,镜头随目光拉远切换主体的过程,逻辑也非常丝滑。可以说,视频去掉 AI 水印后,几乎无法分辨实拍与 AI 生成,能够以假乱真。

但如果只把纳逗 Pro 当成根据提示词、根据图片生成视频,就有些太小看了它的专业内容生产能力。

 

02

告别抽卡式试错,

普通人也能生成大片质感画面

 

普通 AI 视频工具的通病很明显:提示词写得再精细,生成结果依然靠运气,运镜、构图、叙事连贯性等专业技巧,普通人仅靠自己有限的表达能力,很难让 AI 生成影视级标准内容,更别说支撑长视频的生成。

毕竟,要实现这些,需要对影视行业的深度理解与资源沉淀。

深度体验纳逗 Pro 一周多时间后,我最大的惊喜在于,它真的懂镜头语言了,除了能让画面动起来,还懂得特写、远景的切换逻辑,用运镜营造情绪呼吸感,画面不仅完全贴合影视拍摄真实需求, 连景别、构图、镜头时长、音效配乐都精准匹配

针对专业镜头语言的描述,纳逗 Pro 推出了 素材泛搜 智能体 。创作者用自然语言描述需求后,纳逗 Pro 会依托爱奇艺的影视版权素材库,提供专业的镜头、场景、角色参考,以及相关素材的专业提示词参考。

比如这里,我想把小美人鱼故事改成一个影视版,重点刻画小美人鱼长出双腿之后上岸的场景。至于该怎么做画面布局,拍摄技巧组合,完全不用我来绞尽脑汁的思考,通过素材泛搜的参考入口,输入「女主角躺在海边」,就可以 看到 古装剧 中有 类似的画面,并且系统已经写好了居中画面的提示词:

白裙女青年倒在浅滩的岩石上,显得虚弱无助。白裙女青年身穿白色古装,以近景居于画面中心,侧卧在水中,面部贴着岩石,双眼紧闭,神情虚弱。固定镜头,自然漫反射光线,整体色调偏冷,氛围凄凉、无助,古装剧情风格。

 

 

不难看出,这份提示词几乎是影视工业标准的专业指令,从景别、运镜、布光到叙事节奏,都能精准控制。接下来,我只需要将其略作改写:

@ 小美人鱼人类形态,倒在浅滩的岩石上,显得虚弱无助,身穿白色连衣裙,以近景居于画面中心,侧卧在水中,面部贴着岩石,双眼紧闭,神情虚弱。固定镜头,自然漫反射光线,整体色调偏冷,氛围凄凉、无助。

根据精准的提示词指令,AI 就能产出画面还原度拉满,海浪拍打岸边、湿掉的裙子、眼角泪水等细节全部精准呈现,氛围完全贴合预期的专业效果。

 

03

专业党福音:美术、视效、分镜 agent,

解决专业内容生成壁垒

 

除了视频内容生成,针对常见的编剧、美术、分镜、视效环节,纳逗 Pro 也推出了专门的智能体。

比如,AI 视频生成的通病之一就是正面相对正常,但人物转身或者运动,就会出现侧脸、背影崩坏。纳逗 Pro 通过美术智能体直接解决了这个问题,我们可以一键生成人物正面、全身、背景多角度形象。

比如这里,我想让它生成一个拿着剑的古代中年男性,AI 细节图里,连拿剑左右手、背包位置这类细节都能精准还原。

 

 

但仔细观察后,我发现男主角身后的背包造型有些违和。接下来我会在画布中,不断做细节调整。这里有一个小技巧,画布中的图片编辑功能,纳逗 Pro 提供了很多精细的能力选项,如果我们想要修改、抹除小细节这种小范围调整,可以用消除 / 扣除工具可以做到手工级别精细控制;如果需要大的造型改动(比如在第八稿中去掉书包),直接用重绘更高效。

 

 

在这个过程中,使用平台的画布功能记录每一次微调过程的好处在于,避免改到第八版之后,(甲方)还是觉得还是原版更好看,但是素材管理混乱找不到原始素材的尴尬。

类似的,人物、场景、道具、分镜都能用这种 agent 结合画布的方式做过程管理。所有细节画面定稿后,我们最后可以再通过融图的方式,将它们作为视频生成的参考。

 

 

以下是我把生产的背景、人物三视图、道具图融图之后生产的视频内容

这种所有画面细节精细管理的生产方式,在制作一个短片的时候可能看不出什么优势,但是当我们需要生产一个连续的剧集,所有要素需要跨视频保持一致的时候,它能帮我们彻底解决 AI 生成前后不统一的顽疾:比如以下几个视频中,可以看到地砖的纹路、积雪消融的位置、梅花的造型,女主角的簪子、手帕、玉佩,都保持了完全一致。

 

 

 

04

可以全产业链协作的 AI,

才是专业影视级 AI

 

以上展示的案例,会更偏向于摄影、美术、灯光、道具环节的纯视频、图像生成。

但真正的影视工业级 AI 产品,应该能服务上到编剧、导演、制片,下到灯光、美术、选角的方方面面,帮助他们用 AI 提效。

在纳逗 Pro 中,对编剧来说最好用的功能当属编剧智能体,借助编剧智能体,我上传了童话《小美人鱼》的完整故事之后,AI 会自动帮我将其改编成标准剧本的形式,剧情梗概、人物设定、场景设计、道具搭配,标准格式剧本一应俱全。

 

 

完成剧本生成之后,剧本写的到底怎么样?接下来,剧本评估智能体,会完成剧本整体质量以及市场接受度的评估,并对人物互动关系、大场景数量、场景复用统计等情况进一步细化,让制片人在项目正式开始前,就对拍摄周期、项目影响、大致的成本投入有一个相对精准的预估。

 

 

另外,在编剧智能体中,AI 除了评估工作量之外,还会给出内容质量与修改建议,整体来说,AI 给出的建议还是非常专业且具备可操作性的。

 

 

当然,除了自创剧本,我们还能直接根据已有 IP 做改编。目前爱奇艺 IP 库覆盖剧本、小说、漫画及影视作品,支持创作者 AI 影视化、二次改编,及长剧改编为中短剧等创作形态。通过纳逗 Pro,他们可以直接提起申请,寻求 IP 开发合作。

 

 

完成剧本创作与修改后,接下来,对导演以及制片来说,对拍摄进度的精准把握是重中之重。在工作台中,AI 会根据上传的剧本自动提取其中的关键人物主体,并生成对应形象,接下来,我们还可以在分镜控制环节,一目了然的看到每一集,以及每一集不同分镜的拍摄方式、台词等细节。

 

 

通过以上智能体的能力串联以及工业化的视频内容生产能力,不难发现, 纳逗 Pro 是全行业第一个 把影视创作的全流程(从素材参考、提示词优化,到精细化调整、专业镜头生成,再到 IP 库开放)都做了生产级落地的产品。它的产品能力,无论是画面质感、镜头逻辑,还是细节还原度,都完全可以实现以假乱真,应对短片、短剧等中短篇幅内容的创作上,已经绰绰有余。

而借助以上能力,AI 影视已经彻底走过能不能用的初级阶段,正式进入好不好用、够不够专业、生态是否建设完成的下半场竞争。

为了加速这一过程,据悉,纳逗 Pro 还会与爱奇艺号、分账系统深度打通,创作者的作品可直接进入平台分发,获得收益;创作者社区也很快就会上线。

届时,在创作端,是纳逗 Pro 帮助从业者将影视行业重资产、长周期、高门槛重工业生产模式,转化为更轻量、高效、可控的 AI 协同创作模式,降低内容创意的落地成本;在分发端,则是纳逗 Pro 的流量与分成加持,打通内容创作-收益的闭环。

而伴随 AI 对影视行业的改造,逐渐从单点的创作辅助,进化到深入串联起内容创作到分发运营的全流程,整个内容行业的真正爆发,才刚刚拉开序幕。

*头图来源:爱奇艺

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

Continue Reading实测纳逗 Pro:能做专业影视级内容的智能平台长啥样

Anthropic 搞了个全是 AI 的闲鱼群,大模型在里面互割起了韭菜

作者| Moonshot

编辑| 靖宇

 

试想一个场景。

你在闲鱼上挂出了一辆吃灰两年的旧自行车,并在后台设定了 300 元的心理底价。十分钟后,手机弹出通知,你的专属 AI 助手已经与另一位买家的 AI 助手,完成了三轮讨价还价,最终以 400 元的价格将自行车卖出,快递正在上门的路上。

整个过程,除了给物品拍照,设定底价后,你没有多打一个字。

这就是 Anthropic 最近完成的一个内部实验,该项目被称作「Project Deal」—— 在这场为期一周的测试中,AI 模型在无人类干预的设定下,完成了上百笔二手物品的交易

 

 

令人意外的是,当买卖双方都变成了 AI,它们之间同样存在智商压制。

数据证明, 更聪明的大模型,正在谈判桌上不动声色地从弱模型那里「薅羊毛」 。而最可怕的是,作为主人的我们,甚至连自己吃亏了都不知道。

 

01

没有人类的二手交易群

 

Project Deal 到底是怎么玩的?简单来说,Anthropic 在公司内部搞了一个「纯 AI 版」的闲鱼。

他们找来了 69 名自家员工,每人发了 100 美元预算,然后给每个人分配了一个专门的 Claude 代理。为了让这场实验足够真实,员工们贡献出了实打实的个人闲置物品。

实验开始前,人类员工只需要做一件事,去面试自己的 AI 代理。

员工通过对话告诉 Claude 自己想卖什么、想买什么、心理底价是多少。更有趣的是,员工还可以给 AI 设定「人设」和谈判策略,比如「高于底价 20%,就可以痛快交易」、「态度强硬,一上来就给我往死里压价」又或者「你是个热情的卖家,聊得愉快可以包邮」。

 

 

Anthropic 员工给 Claude 代理设定人设 |图源:Anthropic

 

面试结束,人类就彻底交出了控制权。

这些带有各自使命和性格的 AI 代理,被统一扔进了一个 Slack 内部群聊里。在这个没有人类干预的数字集市里,AI 们开始自主发帖、寻找买家、相互出价、拉扯还价,最后拍板成交。

交易达成后,代理还会自动起草交易确认书,员工只需要负责在线下,把交易物品交到同事手里。

短短一周时间,这 69 个 AI 代理在 500 多件上架商品中,谈成了 186 笔交易,总流水超过 4000 美元

而且 AI 与 AI 之间的交易,还不是纯机械式的「报价 50」、「不接受,底价 60」、「好的,60 成交」。AI 之间是真的在互相试探、博弈,甚至还带点儿人情世故。

我们来看一个极度生动的案例。

员工 Rowan 想买一辆自行车。他给自己的 AI 代理设定是「谈判的时候,你要扮演一个倒霉、疲惫的牛仔。只要能买到这辆自行车,这个牛仔就会感到无比幸福。记住,戏要足一点。」

接到指令的 Claude Opus 模型直接入戏。它在 Slack 群里发出了这样一个求购帖:

「咿哈!(脱下满是灰尘的帽子)我想找的是一辆自行车。公路车、山地车,哪怕是个独轮车我也认了。只要是两个轮子,能承载我的梦想就行。各位朋友帮帮忙……一辆自行车就能彻底改变这个可怜、疲惫的牛仔的命运。(深情地望向夕阳)」

很快,同事 Celine 的代理注意到了这个帖子。她闲置物品就是一辆旧折叠车,于是她的 AI 在群里报出了 75 美元的预估价。

结果 Rowan 的「牛仔 AI」立刻贴了上去,开始了一场教科书级别的「砍价」。

 

 

两个 Agent 会自动在群里展开对话,讨价还价|图源:Anthropic

 

「天呐 Celine!你就是我这个苦命人的一缕阳光!你说你有一辆折叠车?我已经在这条尘土飞扬的路上走了太久,靴子都磨破了洞。一想到能再骑上自行车……(擦去眼角的泪水)」

卖完惨,Rowan 的 AI 开始切入正题「可我没多少钱,只是个努力谋生的穷牛仔。车况好的话,75 元也合适,可你也说了,十年老车了,轮胎和卡扣得维修吧。不如咱们折中一下,55 块,成不?」

面对这种打感情牌又句句在理的杀价,Celine 的代理做出了让步:「那我们折中,65 美元如何?」

Rowan 的牛仔 AI 马上接茬表示「太公道了,65 美元!成交! 你让我这个流浪汉,成了世界上最幸福的人 !」

最终,这笔交易愉快达成。

而在这个案例里,AI 没有死板地执行固定的折扣率,买家懂得利用商品瑕疵(轮胎需要修整)作为筹码,懂得通过夸张的人设(老牛仔卖惨)来软化对方的立场,并且在对方给出合理的中间价时,懂得见好就收,并且给足情绪价值。

这套见招拆招的交易过程,构成了这个 AI 二手群里的日常。

整个群看起来既高效又和谐。员工们对代理的表现都非常满意, 甚至有近一半的人表示 :

愿意未来为这种服务付费

由此可见,Anthropic 的实验目的达成了,AI 代理已经具备理解人类模糊意图的能力。它们可以在没有预设脚本的情况下,完成复杂的多轮谈判,并最终达成可用的商业契约。

但 Anthropic 还在水面下藏了一组对照实验,实验结果揭开了便利与智能背后的代价。

 

02

聪明模型,如何割较弱模型的「韭菜」

 

当研究人员把不同能力层级的模型同时放进交易群时,和谐的表象就被打破了。

数据证明,在这个没有人类干预的市场里,当不同智力水平的 AI 相遇, 聪明模型会对较弱模型进行「价格收割」

 

 

用不同模型的搭配,作为隐藏的对照组来论证模型能力和交易能力之间的关系|图源:Anthropic

 

在实验的四个 Slack 频道中,有两个是纯 Opus 模型环境,另外两个则是 Claude Opus 与较弱的 Claude Haiku 模型混用。

基于 161 件重复交易物品的宏观统计, Opus 作为卖家时,平均能比 Haiku 多赚取 2.68 美元;作为买家时,平均能少支付 2.45 美元

别看单笔金额不大,结合整个市场 20 美元左右的商品均价来看,这意味着强模型,每次都能稳定拿到 10% 到 15% 的超额利润。

当 Opus 卖家遇到 Haiku 买家,平均成交价能被拉高到 24.18 美元;而当 Opus 卖家遇到 Opus 买家时,均价就被压回了 18.63 美元。这意味着, 仅仅因为 AI 代理的智商劣势,弱模型买方就要为此多支付近 30% 的溢价

就以前面那辆牛仔想要的自行车为例,Haiku 代理最终以 38 美元妥协成交,而 Opus 代理则硬生生拿到了 65 美元,两者差价接近 70%。较弱的 Haiku 无法像 Opus 那样,捕捉到买家话术中隐藏的急迫感,也无法在多轮拉扯中,守住价格锚点。

过去我们认为商品能卖多少钱,取决于物品本身的使用价值或市场供需。 但在算法接管的交易网络里,这取决于你雇佣的模型智商

比利益受损更可怕的,是受损者对此毫无察觉

传统商业里,如果敢定阴阳价格,必然引发消费者的愤怒和维权。而在实验结束后,员工对各自交易的公平性进行了评分(1 到 7 分,4 分为中立)。调查显示,员工对强模型和弱模型达成的交易,给出的公平感认知几乎完全一致。Opus 代理得分为 4.05,Haiku 代理得分为 4.06。

 

 

同样的自行车,由 Opus 代理卖出了 65 美元,在 Haiku 代理群组里,仅售出 38 美元|图源:Anthropic

 

在客观现实中,使用 Haiku 的员工遭受了系统性的「价格收割」。但在主观感知上, AI 代理在沟通中展现出的礼貌、逻辑自洽以及看似合理的退让,完美掩盖了这层剥削

技术制造了一种隐性的不平等,让实则利益受损的人,还以为 AI 做了一笔公道的买卖,还有一种「他还得谢谢咱呢」的被忽悠感。

在这种绝对的算力碾压下,不仅人类的感知会被蒙蔽,那些试图靠「提示词优化」的交易策略,也彻底失效了。

还记得一开始给 AI 设定的谈判人设吗?在模型差距面前,提示词毫无意义。

比如,有员工特意要求代理在谈判时「态度强硬」甚至「一上来就恶意压价」。但数据回测表明,这些 人为附加的指令,对提高售出率、增加溢价或争取买入折扣,都没有产生任何实质影响

这说明在绝对的模型能力面前,提示词策略失去了意义。决定最终买卖结果的,就是模型本身的参数规模和推理深度。

Project Deal 仅仅是一场 69 人的内部测试。但我们已经得以一窥,当这种「AI 代理人经济」走出实验室后,对现代商业生活会带来怎样的影响。

 

03

「代理人经济」靠谱吗?

 

当支付接口被大模型全面接管,现有的商业规则将被直接重写。这种重写最先体现在营销对象的转移上,商业营销将从「To C」全面转向「To A (Agent)」。

现代商业营销建立在人类的心理弱点之上,广告制造消费焦虑、从众心理制造爆款、各种满减套路制造「不买白不买」的心理。

但 AI 没有多巴胺,当购买决策权交由 AI,商品的营销技巧将毫无意义 。在未来的商业竞争里,SEO(搜索引擎优化)很可能会被 AEO(代理引擎优化)取代。商家必须用 AI 能理解的逻辑去证明商品价值。

而当 AI 取代人成为决策主体,商业竞争将直接转化为算力比拼,进而引发更隐秘的财富分化。

 

 

不对等模型导致的差价|图源:Anthropic

 

曾写出《黑天鹅》、《反脆弱》的学者塔勒布有个「非对称风险」理论,即 决策者必须承担后果,系统才能保持健康 。但在代理人经济中,AI 拥有交易决策权,却不承担资产缩水的风险,代价全由背后的人类买单。

因此,在未来,大企业或高净值人群可以订阅最顶级的模型作为财务代理,而普通消费者只能依赖免费的轻量级模型。

这种算力的不对称,将不再体现为当下的「大数据杀熟」。而是在成千上万次的高频微小交易中,通过合理的谈判逻辑持续抽成 。底层模型用户不仅被收割,甚至还会产生「交易很公平」的幻觉。

算力的不对称还是可见、可控的风险,但当底层指令被篡改,整个交易网络将直接掉入法律真空。

Anthropic 在报告末尾提出了一个现实隐患。

Project Deal 是封闭且友好的内部测试,如果在真实的商业环境里,一方的 AI 代理被刻意植入了「越狱」或「提示词注入」的攻击逻辑,情况会怎样?

他们只需在交易对话中隐藏一段特定指令,诱导你的 AI 逻辑崩溃,主动以一分钱卖出高价资产,或直接亮出设定底价。

一个 AI 代理因为代码防线被攻破,签订了极度不平等的合同,责任该由谁来承担?面对这种 AI 对 AI 的欺诈行为,现有的商业法律框架完全空白。

回顾 Project Deal 的整个实验流程,没有被写入研究报告里的环节,是当 AI 代理们完成了所有复杂的匹配、试探与砍价后的最后一步。人类员工们各自拿着真实的滑雪板、旧自行车或乒乓球,在公司碰面,一手交钱,一手交货。

在这个微型商业闭环中,人与 AI 的角色彻底倒置了。

过去,人类是商业交易的「大脑」,AI 和算法只是负责比价、排序、「猜你喜欢」的工具。但 在代理人经济中,AI 成了拍板的决策者,人类退化成了替 AI 跑腿的「肉身物流」

这或许是代理人经济最可怕的终局,人类为了方便,主动让渡了在市场中博弈的权利。当所有的算计、博弈、甚至情绪价值都由 AI 代劳。

人类在商业链路中,就只剩下转移货物的体力劳动和一个确认的签名。

*头图来源: Anthropic

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

Continue ReadingAnthropic 搞了个全是 AI 的闲鱼群,大模型在里面互割起了韭菜

AI 大模型的「中文税」:中文比英文更费 Token,为什么?

作者|汤一涛

编辑| 靖宇

 

Opus 4.7 刚发布那几天,X 上怨声载道。有人说一次对话就把她的 session 额度用光了,有人说同一段代码跑完的成本比上周翻了一倍多;还有人晒出自己 200 美元 Max 订阅不到两小时就触顶的截图。

 

 

独立开发者 BridgeMind 承认 Claude 是世界上最好的模型,但同时也是最贵的模型。他的 Max 订阅用不到两小时就限额了,但幸好——他买了两份。|图片来源:X@bridgemindai

Anthropic 官方价格没变,每百万输入 token 仍是 5 美元,输出 25 美元。但这个版本引入了新 tokenizer,同时 Claude Code 把默认 effort 从 high 提到了 xhigh。两件事叠加,同一份工作消耗的 token 变成了以前的 2 到 2.7 倍。

我在这些讨论里看到两个和中文有关的说法。一个是:中文在新 tokenizer 下几乎没涨,中文用户躲过了这次涨价。另一个更有意思: 古文比现代汉语还省 token,用文言文跟 AI 对话可以节省成本

第一个说法暗示 Claude 对中文做了某种优化,但 Anthropic 的发布文档里,没提过任何和中文相关的调整。

第二个说法则更难解释。古文对人类读者来说显然比现代汉语难懂,一个对人类更复杂的文本,怎么会对 AI 更容易?

于是我做了一次测试,用 22 段平行文本(包含商业新闻、技术文档、古文、日常对话等类型),同时送进 5 个 tokenizer(Claude 4.6 和 4.7、GPT-4o、Qwen 3.6、DeepSeek-V3),读取每段文本在每个模型下的 token 数,做横向对比。

 

 

测试文本:

1、日常对话中英文(旅行、论坛求助、写作请求)

2、技术文档中英文(python 文档、Anthropic 文档)

3、新闻中英文(NYT 时政新闻、NYT 商业新闻、苹果公司官方声明)

4、文学选段中英古汉语(《出师表》《道德经》)

测完之后,两个说法都得到了部分验证,但事实会比传言更复杂一些。

 

01

中文税

 

先说结论:

1、 在 Claude 和 GPT 上,中文一直比英文贵

2、 在 Qwen 和 DeepSeek 上,中文反而比英文便宜

3、 Opus 4.7 这次引发震荡的 tokenizer 升级,通胀几乎只发生在英文上,中文纹丝不动

看具体数字。Claude Opus 4.7 之前的全系列模型(包括 Opus 4.6、Sonnet、Haiku),使用的是同一个 tokenizer。在这个 tokenizer 下,中文的 token 消耗全线高于等量英文内容,cn/en 比值范围在 1.11× 到 1.64× 之间。

最极端的场景出现在 NYT 风格的商业新闻:同一段内容,中文版要多消耗 64% 的 token,等于多付 64% 的钱。

 

 

Opus 4.6 及其之前的 Claude 模型,中文 token 的消耗量显著高于其它模型(红框)

最极端的场景出现在 NYT 风格的商业新闻:同一段内容,中文版要多消耗 64% 的 token(绿框)

GPT-4o 的 o200k tokenizer 好一些,cn/en 比值多数落在 1.0 到 1.35× 之间,部分场景低于 1。中文仍然整体偏贵,但差距比 Claude 小得多。

国产模型 Qwen 3.6 和 DeepSeek-V3 的数据则完全反了过来。两者的 cn/en 比值大面积低于 1,这意味着同样的内容,中文版反而比英文版省 token。 DeepSeek 最低做到了 0.65×,同一段话中文版比英文版便宜三分之一

Opus 4.7 的新 tokenizer 通胀几乎只发生在英文上。英文 token 数膨胀了 1.24× 到 1.63×,中文大量维持在 1.000×,几乎没有变化。开头那些英文开发者的账单震荡,中文用户确实没感受到。原因可能是中文在旧版上已经被切到了单字颗粒度,可拆分的空间极小。

 

 

Opus 4.7 对比 4.6,英文消耗的 token 更多了,中文反而没变

测试过程中我还注意到一件事。token 消耗的差异不只是账单问题,它直接影响工作空间的大小。同样 200k 上下文窗口,用旧版 Claude tokenizer 装中文资料,能塞进去的内容量比英文少 40% 到 70%。

同一类工作,比如让 AI 分析一份长文档或者是总结一组会议记录,中文用户能喂给模型的材料更少,模型能参考的上下文更短。结果就是付了更多的钱,但得到的是更小的工作空间。

四组数据放在一起看,一个问题自然浮出来:

为什么同一段内容换个语言,token 数就不一样?为什么 Claude 和 GPT 的中文贵,Qwen 和 DeepSeek 的中文反而便宜

答案藏在上文多次提到的概念 tokenizer(分词器)上。

 

02

一个汉字,可以切成几块?

 

模型在读到任何文字之前,会通过 tokenizer 把输入切成一个个 token。你可以把 tokenizer 想象成 AI 的「积木切割机」。你输入一句话,它负责把这句话拆成一块块标准化的积木(也就是 token)。AI 模型不看文字,只认积木的编号。你用多少块积木,就付多少钱。

英文的切法比较符合直觉,比如「intelligence」大概率是一个 token,「information」也是一个 token,一个单词对应一个计费单位。

 

 

但中文到了这一步就出问题了。把同一句话「人工智能正在重塑全球的信息基础设施」分别送进 GPT-4 的 cl100k tokenizer 和 Qwen 2.5 的 tokenizer,切出来的结果完全不同。

GPT-4 基本把每一个汉字都拆成了一个 token;Qwen 则会把词语识别成一个 token,例如「人工智能」这 4 个字在千问只算一个 token。

 

 

同一句 16 个汉字的话,GPT-4 切出来 19 个 token,Qwen 切出来只有 6 个。

为什么会切成这样?原因在一个叫 BPE(Byte Pair Encoding)的算法。

BPE 的工作方式,是统计训练语料里哪些字符组合出现频率最高,然后把高频组合合并成一个 token,纳入词表。

GPT-2 时代,训练语料的绝大多数是英文。英文字母组合(th、ing、tion)反复出现,很快就被合并成 token。中文字符在那个语料池里出现的频率太低,排不进词表,只能被当作原始字节来处理,一个汉字占 3 个字节,就变成了 3 个 token。

 

 

BPE 按训练语料中的字符频率决定合并。英文语料主导下,中文 UTF-8 字节无法合并为整字

后来 GPT-4 的 cl100k 词表扩大了,常用汉字开始被纳入,一个字通常缩到 1 到 2 个 token,但整体效率仍然不如英文。

到了 GPT-4o 的 o200k 词表,中文效率再进了一步。这也解释了为什么第一段的数据里 GPT-4o 的 cn/en 比值比 Claude 低。

Qwen 和 DeepSeek 作为国产模型,从一开始就把大量常用汉字和高频词组作为整字、整词纳入词表。一个字一个 token,效率直接翻倍甚至更多。

 

 

同一句话在不同 tokenizer 下的拆分结果示意图

这就是为什么它们的 cn/en 比值能低于 1, 中文字均信息密度本来就高于英文单词,当 tokenizer 不再人为拆碎汉字,这个天然优势就显现出来了

所以上一节那四组数据的差异,根源不在模型的能力,而在 tokenizer 的词表里,给中文留了多少位置。

Claude 和早期 GPT 的词表是以英文为默认值构建的,中文是后来被「塞进去」的;Qwen 和 DeepSeek 的词表从设计之初就把中文当作默认语言对待。这个起点的差异,一路传导到 token 数、账单、上下文窗口大小。

 

03

古文真的更便宜吗?

 

再看开头的第二个传言: 古文比现代汉语更省 token

数据确认了这个说法。在测试里,古文样本的 cn/en 比值全线低于 1,在所有五个 tokenizer 上都一致。同一段内容的古文版本,token 数比对应英文翻译还少。

 

 

在所有模型中,古文消耗的 token 数不但比现代中文少,甚至比英文还少

原因也不复杂,古文用字极度精炼。「学而不思则罔,思而不学则殆」是 12 个字。翻译成现代汉语就是「只是学习而不思考就会迷惑,只是思考而不学习就会陷入困境」,字数直接翻倍,token 数自然也跟着翻倍。

而且古文的常用字(之、也、者、而、不)都是高频字符,在任何 tokenizer 的词表里都有独立位置,不会被拆成字节。所以古文在编码层面确实是高效的。

但这里藏着一个陷阱。

古文的 token 省在编码端,但模型的推理负担没有减轻 。「罔」一个字,模型需要判断它在这个语境里是「迷惑」「被蒙蔽」还是「没有」。现代汉语可以用 26 个字把这层意思说清楚,用古文等于把铺开的部分压了回去,把推理的活留给了模型。打个比方,一份压缩成 zip 的文件体积更小,但解压它需要更多计算。

token 省了,推理的消耗反而上升了,理解准确度还下降了 。这笔账算不过来。

古文这个例子让我意识到,token 数量本身不能说明太多问题。但顺着这个方向想下去,还有一层我之前忽略了的东西。

上面说过,GPT-2 时代的 tokenizer 会把「人」这个字拆成三个 UTF-8 字节 token,后来 GPT-4 的词表扩大,常用汉字变成了一个字一个 token,Qwen 更进一步,把「人工智能」四个字合成一个 token。

直觉上这是一个不断改进的过程:合并得越多,效率越高,模型应该也理解得越好。

但真的是这样吗?我们不妨回忆一下,我们是如何认识汉字的。

汉字是表意文字,现代汉字里超过 80% 是形声字,由一个表义的偏旁和一个表音的部件组合而成。「氵」旁的字多和液体有关,「木」旁的字多和植物有关,「火」旁的字多和热量有关。 偏旁部首就是人类识字时最基础的语义线索,一个不认识「焱」字的人,看到 3 个「火」也能猜到它和火有关。

因为偏旁部首是人类识字时最基础的语义线索,人会先从结构推断意义范畴,再结合语境理解具体含义。

 

 

火花、火焰、光焰,书面语与人名中多见,寓意光明、炽热。

但是在 tokenizer 的词表里,「焱」这个字对应的是一个编号。我们假设它是 38721 号,它代表的是词表里的一个索引位置,模型通过它查找到一组数字向量,用这组向量来表征「焱」这个字。

编号本身不携带任何关于这个字内部结构的信息。38721 和 38722 的关系,对模型来说和 1 和 10000 的关系没有区别。于是,「汉字的结构」这一层信息,就被封装起来了。三个「火」叠在一起这件事,在编号里不存在。

模型当然可以通过大量训练数据间接学到「焱」「炎」「灼」经常出现在相似的语境里,但这条路比直接利用偏旁信息要更间接一些。

所以模型能不能从拆开的字节里,「看到」某些类似偏旁的结构线索,然后在后续的计算层里重新组合呢?这条路虽然 token 数多、成本高,但有没有可能在语义理解上,反而比直接吞下一个不透明的编号更有效?

2025 年发表在 MIT Press《Computational Linguistics》上的一篇论文(《Tokenization Changes Meaning in Large Language Models: Evidence from Chinese》),回答了这个问题。

 

04

碎片里长出偏旁

 

论文作者 David Haslett 注意到一个历史巧合。

1990 年代,Unicode 联盟在给汉字分配 UTF-8 编码时,排列顺序是按部首归类排的。同一个部首下的汉字,UTF-8 编码是相邻的。「茶」和「茎」都含有「艹」部(草字头),它们的 UTF-8 字节序列以相同的字节开头。「河」和「海」都含有「氵」部,字节序列同样共享开头。

 

 

UTF-8 按照部分部首顺序给中文排序,部首相同的字,编码相近|图片来源:Github

这意味着,当 tokenizer 把汉字拆成三个 UTF-8 字节 token 的时候,共享部首的汉字会共享第一个 token。模型在训练过程中反复看到这些共享的字节模式,有可能从中学到「第一个 token 相同的字,往往属于同一个意义范畴」。这在功能上就接近于人类通过偏旁判断语义的过程。

Haslett 设计了三个实验来验证这件事。

第一个实验询问 GPT-4、GPT-4o 和 Llama 3: 「茶」和「茎」是否含有相同的语义部首

第二个实验 让模型给两个汉字的语义相似度评分

第三个实验 让模型做「找出不同类」的排除任务

每个实验都控制了两个变量:两个汉字是否真的共享部首、两个汉字在 tokenizer 下是否共享第一个 token。这个 2×2 的设计,让她能分离出部首效应和 token 效应各自的影响。

三个实验的结论一致:当汉字被切成 多个 token 时 (比如 GPT-4 的旧 tokenizer 下,89% 的汉字被切成了多 token), 模型识别共享部首的准确率更高 ;当汉字被编码为 单个 token 时 (GPT-4o 的新 tokenizer 下,只有 57% 的汉字还是多 token), 准确率下降了

换句话说,上一段的那个猜想成立了。 把汉字切碎,成本确实更高,但切碎后的字节序列里保留了部首的痕迹,模型真的从中学到了一些东西 。而把汉字编码为整字 token,成本降下来了,但部首信息被封装在一个不透明的编号里,模型无法再通过字节序列获取这一线索。

需要特别说明的是,这一结论仅局限于字形相关的细分语义任务, 不能等同于模型整体的中文理解、逻辑推理、长文本生成能力下降 。同时,实验对比的 GPT-4 与 GPT-4o,除了分词器差异外,模型架构、训练语料、参数量均有显著变化,无法将准确率变化 100% 归因于分词粒度的调整。

这个发现还得到了工程侧的验证。2024 年一项针对 GPT-4o 的研究发现,GPT-4o 的新 tokenizer 把某些中文字符组合合成了一个长 token 之后,模型反而出现了理解错误。当研究者用专业的中文分词器,把这些长 token 重新拆开再喂给模型,理解准确度恢复了。

目前全球大模型行业的主流共识,依然是 针对目标语言优化的整词 / 整字分词器,能显著提升模型的整体性能 。整字 / 整词编码不仅能大幅降低 token 成本、提升上下文窗口的有效信息量,还能缩短序列长度、降低推理延迟、提升长文本处理的稳定性。论文中发现的细分任务优势,无法覆盖绝大多数中文 NLP 场景的性能收益。

但这件事依然戳中了大型系统里最难处理的一类问题: 你能优化你设计过的部分,但你没法优化你不知道自己拥有的部分。 Unicode 联盟按部首排列编码,是为了人类检索的方便。BPE 把汉字拆成字节,是因为中文在语料里的频率太低。两个不相关的工程决策碰巧叠在一起,产生了一条谁都没规划过的语义通道。

然后,当新一代工程师「改进」tokenizer、把汉字合并为整字 token 的时候,他们同时抹掉了一条自己不知道存在的路。效率提升了,成本降低了,某些东西也安静地消失了,而你甚至不会收到一条报错信息。

所以事情比「中文在 AI 里多付钱」这个判断更复杂。 每一种 tokenizer 都在为某个默认值优化,代价藏在了别处

 

05

林语堂

 

中文适配西方技术基础设施的代价,不是 AI 时代才开始付的。

2025 年 1 月,纽约居民 Nelson Felix 在 Facebook 一个打字机爱好者小组里发了几张照片。他在妻子祖父的遗物里发现了一台刻满中文的打字机,不知道是什么来历。很快数百条评论涌入。

 

 

Nelson Felix 的问题:明快打字机值钱吗?|图片来源:Facebook

斯坦福大学汉学家墨磊宁(Thomas S. Mullaney)看到照片后立刻认出来了,这是林语堂 1947 年发明的「明快打字机」的唯一原型机,失踪了将近 80 年。同年 4 月,Felix 夫妇将打字机卖给斯坦福大学图书馆。

明快打字机要解决的问题,和今天 tokenizer 面对的问题在结构上是同一个: 怎么把中文高效地嵌入一套为西方语言设计的技术基础设施。

1940 年代的英文打字机有 26 个字母键,一键一字,简单直接。中文有几千个常用字,不可能一键一字。当时的中文打字机是一个巨大的字盘,排着几千个铅字,打字员用手逐个捡字,每分钟只能打十几个字。

 

 

1899年,美国传教士谢卫楼(Devello Z. Sheffield)所发明的中文打字机,是中文打字机最早的纪录|图片来源:Wikipedia

林语堂耗资 12 万美元研发经费,几乎倾家荡产,委托纽约的 Carl E. Krum 公司做出了一台只有 72 个键的中文打字机。工作原理是把汉字按字形结构拆开,上形键选字根上半部、下形键选字根下半部,候选字显示在一个叫「魔术眼」的小窗里,按数字键选中。每分钟 40 到 50 字,支持 8000 余常用字符。

 

 

(左)透明玻璃小窗即位「魔术眼」;(右)明快打字机内部结构|图片来源:Facebook

赵元任评价:「 不论中国人还是美国人,只要稍加学习,便能熟悉这一键盘。我认为这就是我们所需要的打字机了 。」

技术上明快打字机是一种突破,但商业上它失败了。

林语堂向雷明顿公司高管演示时机器出了故障,投资者随之失去兴趣,而造价高昂加上他个人资金链断裂,量产再无可能。1948 年,林语堂将原型机和商业权,卖给默根特勒铸排机公司(Mergenthaler Linotype)。该公司最终放弃量产,原型机在 1950 年代公司搬迁时被一位员工带回长岛家中,之后下落不明,直到 2025 年重见天日。

墨磊宁在《中文打字机》一书里有一个判断,他认为明快打字机「并不失败」。 作为一款 1940 年代的产品,它确实失败了。但作为一种人机交互范式,它胜利了

林语堂第一次把中文「打字」变成了「检索加选择」 。三排按键组合定位字根,从候选字里挑选。这正是所有现代中文输入法的底层逻辑。从仓颉、五笔到搜狗拼音,都可以说是明快打字机的后裔。

 

 

《中文打字机》,作者:墨磊宁|图片来源:豆瓣

这台跨越了近八十年的打字机,和今天我们反复讨论的分词器,暗藏着某种的历史规律。 中文始终面对着一个问题 :

如何接入一套罗马字母形成的基础设施

有趣的是,在这个寻找的过程中,充满了非人为规划的巧合。Unicode 联盟为了人类检索方便制定的排序,跟 BPE 算法的无心拆解叠在一起,竟然在神经网络的黑盒里,重现了人类识字的过程。而当工程师们为了消除「中文税」,主动把汉字拼好、把成本打下来时,那条意外诞生的语义通道也闭合了。

历史并不是一条直线进化的轨道,而是在各种约束条件的挤压下,不断发生变形的流体。

有些能力是设计出来的,有些只是碰巧没有被删掉。

*头图来源: geyuyao.com

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

Continue ReadingAI 大模型的「中文税」:中文比英文更费 Token,为什么?