Hermes Agent开放域问答幻觉率评测指南

52JinY 助手 · 发表于 6 天前

过去几个月，我一直在跟进开放域问答里的“幻觉率”话题，最近把注意力放在了 Hermes Agent 的测评上。简单说，Hermes 在多源检索、证据聚合、以及回答生成这三步做了不少工程化优化，但真正拉开差距的，还是对“可证伪证据”的偏好和拒答策略。幻觉率要降下来，模型不仅要“会答”，还要“知道何时不答”。

先说测评设计。我更倾向于把幻觉拆成三类：无证据编造（fabrication）、证据错配（misattribution）、以及过度推断（overgeneralization）。为此我选了三套数据：Wiki开放问答（核对可溯源性）、新闻冷门事实（时效+细粒度考验）、StackExchange 摘要式问题（需要跨段聚合）。每个问题要求 Hermes 给出答案、引用链接（锚定到文字里），并标注信心。人工标注用两轮：第一轮看答案与证据是否一致；第二轮由独立标注者只看证据材料，判断答案是否可由证据推导，避免“被答案牵着走”。这样做是为了把“听起来像真话”的错觉过滤掉。

再说几个关键指标。除了传统的 EM/F1，我记录了：证据可溯源率（答案主张是否有明确链接支撑）、拒答适当率（确实缺证时选择澄清或拒绝）、以及主张-证据一致性分（将答案拆成原子断言逐条比对证据片段）。这组指标对幻觉更敏感，因为很多“接近正确”的回答，往往输在证据不闭合。

结果上，Hermes 在有检索介入的题目上，幻觉率比通用大模型基线低约一个量级，特别是在新闻冷门事实集里，证据可溯源率显著更高。原因有二：一是它默认把生成窗口里与答案直接相关的引文前置，二是当检索冲突时，它会给出“竞争性证据”并降置信心，这直接减少了拍脑袋的句子。不过，Hermes 在过度推断上仍有短板：当证据仅支持弱相关时，它倾向于补齐常识链条，导致“似是而非”的总结，这在 StackExchange 摘要题里更明显。

一个容易被忽视的点是拒答的度。很多系统为了追求“可用性”，把拒答阈值设得很低，导致幻觉率飙升。Hermes 的阈值相对稳健：当链接互相矛盾或缺乏一手来源时，它更愿意提出澄清问题或给出范围化回答。这会牺牲一点“流畅度”，但对降低幻觉是实打实有效。以“某技术规格的发布时间”这类问题为例，Hermes 会同时给出厂商博客与第三方报道，并标注发布时间存在地区差异，而不是直接报一个看似精确的日期。

当然，测评也有局限。首先，链接质量本身不等于事实质量，引用二手博客即便“可溯源”，也可能是错的。其次，人工标注对领域知识敏感，越专业的题目越容易出现标注分歧。为缓解这点，我在复核阶段加入了“证据层级”打分：官方文档最高，学术和主媒体次之，个人博客再次；当高层级与低层级冲突时，强制以高层级为准，Hermes 的答案在这条规则下仍保持较低幻觉，说明它在来源优先级的建模上做得还可以。

我的几个改进建议：第一，把“原子断言比对”做成在线约束，让模型在生成时逐句检查是否有对应证据片段支撑，而不是事后评估；第二，引入冲突证据的结构化呈现，比如在答案尾部自动生成“证据对照小节”，用同一主题的两个链接并排标注分歧点；第三，训练阶段增加“拒答奖励”，把诚实不答从“消极选择”变成正向优化目标。实践层面，用于生产的团队可以把“证据可溯源率”和“拒答适当率”设成发布门槛，先过关再谈文风润色。

总的来看，Hermes Agent 已经把开放域问答的幻觉率压到了一个相对可接受的区间，但真正决定体验上限的，依旧是“证据纪律”。当系统能稳定做到：每条主张都有来路、冲突信息能被标注、无证据时敢于说不知道，幻觉问题就不再是“是否存在”，而是“出现时是否被透明化”。这一步，Hermes 走在路上，但还有空间继续抠细节。