同一个问题为什么要问多个 AI ?

百度今天开了一个万象大会,有个话题是讨论「AI 答案的可信度」,百度倒是确实可以在这件事好好做一下。

如果这件事放在两年前看,会有点奇怪。

当时大家刚开始用聊天式 AI 工具,更多是在惊叹。这玩意儿会写、会答、会总结,像一个反应很快、知识面很广的智能助手。那时很少有人会在问完一个 AI 之后,立刻把同样的问题再扔给第二个第三个 AI 工具。

现在,都已经快变成标准动作了,很多人甚至形成了条件反射。先问一个,心里不太稳;再换一家问,发现说法不一样;接着再去找第三个,想看看到底谁更像真的。

得到答案容易,但是要判断信息是否准确,在 AI 时代,依然是个难题。

越是对比,结果往往并不让人更安心。问得越多,越让人不踏实。

有没有可能,问题不是出在提问方式?

大模型给我们的答案究竟建立在什么信息源基础,什么数据源头。信息源从哪里来,经过了什么筛选,有没有人对其负责?

有些大模型的训练数据主要来自互联网抓取,而当下网络内容中已经混入大量 AI 生成信息,这种「二次生成」的数据循环,使得其可靠性很难不被质疑。

这两年,越来越多的用户把 AI 当信息查询工具,但早期大众并不知道 AI 为什么会出错。后来越来越多的人开始发现,AI 会出错,可出错之后怎么办?表面看,一个问题偏技术,一个问题偏治理,其实是同一件事:人们到底能不能相信它。

有个实验很能说明这一点。果壳网找了 8 家主流 AI 产品,做了 2000 道题的双盲测试。最后看到的结论并不玄妙:接入百度百科作为权威参考信源之后,AI 综合准确度平均提升 38% 以上,关键事实偏离率从 26.4% 骤降至 4.1%,专家认可度高达 91.5%。我觉得这事儿挺有意思,变化并不来自某种神奇的算法飞跃,更像是回到了一个朴素常识:信息源更可靠,答案就更可靠。 

很多人其实早就隐约有这种感觉。现在不少 AI 的表达能力都很强,措辞流畅,语气笃定,读上去很像那么回事,还特能给你情绪价值。但越是这样,越容易让人不踏实。因为经常不会直接承认自己不知道,也不太愿意停下来。它更习惯组织出一套完整表述,先把答案摆到你面前,至于里面有多少是真正站得住的,往往要靠用户自己再去查。

于是用户开始做一件很费力的事情:把一个 AI 的答案交给另一个 AI 去核对,再把两个结果交给第三个去比照。到最后,用户自己成了审核链条里最辛苦的那一环。表面上是在使用工具,实际上是在替工具补流程。

真正高效的体验,不应该是让用户不断切换模型、来回比对,而应该是在答案生成之前,系统就已经把大量不可靠的信息挡掉,把明显有问题的内容筛过一遍。搜索时代其实很早就在做这件事,只不过到了生成式 AI 时代,这套逻辑需要以新的方式重新搭起来。

本次万象大会,百度反复讲的一个重点,强调的不再是「模型更强」,反而说起来信息真实性的问题来了:答案生成之前,先做筛选、校验、拆解,再把结果组织出来。前面一层负责处理信息,后面一层负责理解需求,最后给用户的是已经被加工过、整合过的一份回答。

值得注意的,其实是那几道过滤机制。首先是来源准入,哪些内容能进候选池,哪些进不了,前面就要有门槛。然后是多信源交叉验证,同一个结论需要有不止一个可信来源支撑,不能只凭某个单点材料就被采纳。还有,第三道:秒级巡检和人工介入,发现内容走偏,要能及时召回重新生产。 

这些做法听上去有点像传统互联网时代留下来的老经验,但在今天反而显得更有用。因为当下很多生成式 AI 的问题,已经不只是会不会「自然出错」,还包括会不会被有意喂错。

今年 315 曝光的 GEO 黑产就是个典型例子。一些人批量制造软文、伪造内容、堆砌伪信息,成本很低,传播却很快。几天之内,一个原本并不存在的说法,就有机会被某些 AI 当成高频事实重新组织出来。模型本身并不理解真假,更擅长处理表面上的合理性、流行度和语言结构。如果没有稳定的信源锚点,没有后端治理,系统就会走偏。 

如果百度从现在开始,更重视百科的内容建设,提高已有产品的可信能力,那么,在 AI 时代可能会走出一条新路。

AI 是否可信,已经不能只看在演示场景里有多厉害。重要的是,背后有没有一套持续运转的责任机制。出了问题,能不能发现;发现之后,能不能纠正;纠正之后,能不能形成更稳定的约束。这也是为什么现在越来越多平台开始讲「AI 鉴真」。并不是说模型敢承诺永不出错,任何一家模型都做不到这一点。

重点是,有疑问的时候信息能不能追溯,结论能不能查证,内容出了偏差之后是否有人接手处理。

用户反复追问多个 AI,并不代表变得更理性了,只是说明心里没有真正建立起信任。多问一次,背后其实就是多一层怀疑。

这也让问题变得更直接。大家想要的不是一个可以被反复比对的答案池,那样恐怕又回到当年的搜索结果列表页了。而是有一个系统性的判断环境:问一次,就大体知道答案是否站得住;需要追溯时,能找到出处;发现问题时,知道背后有机制会处理。

接下来 AI 产品真正拉开差距的地方,也不再只是模型参数、生成速度或者文风表现。更底层的差别,可能落在几个看似普通、其实极难做好的环节上:答案有没有来源,来源是否足够可靠,结论能不能被验证,平台出了问题以后有没有人负责到底。

当一个人开始把同样的问题发给第二个 AI,那已经说明第一份答案没有建立起足够的信任。接下来要补的,就不只是模型能力了。

是时候把信任这件事重新做起来了。

文章原文