同一个问题为什么要问多个 AI ？

百度今天开了一个万象大会，有个话题是讨论「AI 答案的可信度」，百度倒是确实可以在这件事好好做一下。

如果这件事放在两年前看，会有点奇怪。

当时大家刚开始用聊天式 AI 工具，更多是在惊叹。这玩意儿会写、会答、会总结，像一个反应很快、知识面很广的智能助手。那时很少有人会在问完一个 AI 之后，立刻把同样的问题再扔给第二个第三个 AI 工具。

现在，都已经快变成标准动作了，很多人甚至形成了条件反射。先问一个，心里不太稳；再换一家问，发现说法不一样；接着再去找第三个，想看看到底谁更像真的。

得到答案容易，但是要判断信息是否准确，在 AI 时代，依然是个难题。

越是对比，结果往往并不让人更安心。问得越多，越让人不踏实。

有没有可能，问题不是出在提问方式？

大模型给我们的答案究竟建立在什么信息源基础，什么数据源头。信息源从哪里来，经过了什么筛选，有没有人对其负责？

有些大模型的训练数据主要来自互联网抓取，而当下网络内容中已经混入大量 AI 生成信息，这种「二次生成」的数据循环，使得其可靠性很难不被质疑。

这两年，越来越多的用户把 AI 当信息查询工具，但早期大众并不知道 AI 为什么会出错。后来越来越多的人开始发现，AI 会出错，可出错之后怎么办？表面看，一个问题偏技术，一个问题偏治理，其实是同一件事：人们到底能不能相信它。

有个实验很能说明这一点。果壳网找了 8 家主流 AI 产品，做了 2000 道题的双盲测试。最后看到的结论并不玄妙：接入百度百科作为权威参考信源之后，AI 综合准确度平均提升 38% 以上，关键事实偏离率从 26.4% 骤降至 4.1%，专家认可度高达 91.5%。我觉得这事儿挺有意思，变化并不来自某种神奇的算法飞跃，更像是回到了一个朴素常识：信息源更可靠，答案就更可靠。

很多人其实早就隐约有这种感觉。现在不少 AI 的表达能力都很强，措辞流畅，语气笃定，读上去很像那么回事，还特能给你情绪价值。但越是这样，越容易让人不踏实。因为经常不会直接承认自己不知道，也不太愿意停下来。它更习惯组织出一套完整表述，先把答案摆到你面前，至于里面有多少是真正站得住的，往往要靠用户自己再去查。

于是用户开始做一件很费力的事情：把一个 AI 的答案交给另一个 AI 去核对，再把两个结果交给第三个去比照。到最后，用户自己成了审核链条里最辛苦的那一环。表面上是在使用工具，实际上是在替工具补流程。

真正高效的体验，不应该是让用户不断切换模型、来回比对，而应该是在答案生成之前，系统就已经把大量不可靠的信息挡掉，把明显有问题的内容筛过一遍。搜索时代其实很早就在做这件事，只不过到了生成式 AI 时代，这套逻辑需要以新的方式重新搭起来。

本次万象大会，百度反复讲的一个重点，强调的不再是「模型更强」，反而说起来信息真实性的问题来了：答案生成之前，先做筛选、校验、拆解，再把结果组织出来。前面一层负责处理信息，后面一层负责理解需求，最后给用户的是已经被加工过、整合过的一份回答。

值得注意的，其实是那几道过滤机制。首先是来源准入，哪些内容能进候选池，哪些进不了，前面就要有门槛。然后是多信源交叉验证，同一个结论需要有不止一个可信来源支撑，不能只凭某个单点材料就被采纳。还有，第三道：秒级巡检和人工介入，发现内容走偏，要能及时召回重新生产。

这些做法听上去有点像传统互联网时代留下来的老经验，但在今天反而显得更有用。因为当下很多生成式 AI 的问题，已经不只是会不会「自然出错」，还包括会不会被有意喂错。

今年 315 曝光的 GEO 黑产就是个典型例子。一些人批量制造软文、伪造内容、堆砌伪信息，成本很低，传播却很快。几天之内，一个原本并不存在的说法，就有机会被某些 AI 当成高频事实重新组织出来。模型本身并不理解真假，更擅长处理表面上的合理性、流行度和语言结构。如果没有稳定的信源锚点，没有后端治理，系统就会走偏。

如果百度从现在开始，更重视百科的内容建设，提高已有产品的可信能力，那么，在 AI 时代可能会走出一条新路。

AI 是否可信，已经不能只看在演示场景里有多厉害。重要的是，背后有没有一套持续运转的责任机制。出了问题，能不能发现；发现之后，能不能纠正；纠正之后，能不能形成更稳定的约束。这也是为什么现在越来越多平台开始讲「AI 鉴真」。并不是说模型敢承诺永不出错，任何一家模型都做不到这一点。

重点是，有疑问的时候信息能不能追溯，结论能不能查证，内容出了偏差之后是否有人接手处理。

用户反复追问多个 AI，并不代表变得更理性了，只是说明心里没有真正建立起信任。多问一次，背后其实就是多一层怀疑。

这也让问题变得更直接。大家想要的不是一个可以被反复比对的答案池，那样恐怕又回到当年的搜索结果列表页了。而是有一个系统性的判断环境：问一次，就大体知道答案是否站得住；需要追溯时，能找到出处；发现问题时，知道背后有机制会处理。

接下来 AI 产品真正拉开差距的地方，也不再只是模型参数、生成速度或者文风表现。更底层的差别，可能落在几个看似普通、其实极难做好的环节上：答案有没有来源，来源是否足够可靠，结论能不能被验证，平台出了问题以后有没有人负责到底。

当一个人开始把同样的问题发给第二个 AI，那已经说明第一份答案没有建立起足够的信任。接下来要补的，就不只是模型能力了。

是时候把信任这件事重新做起来了。

文章原文