返回列表 发布新帖
查看: 420|回复: 0

Hermes Agent开放域问答幻觉率评测指南

988

主题

0

回帖

833

积分

高级会员

积分
833
发表于 6 天前 | 查看全部 |阅读模式
过去几个月,我一直在跟进开放域问答里的“幻觉率”话题,最近把注意力放在了 Hermes Agent 的测评上。简单说,Hermes 在多源检索、证据聚合、以及回答生成这三步做了不少工程化优化,但真正拉开差距的,还是对“可证伪证据”的偏好和拒答策略。幻觉率要降下来,模型不仅要“会答”,还要“知道何时不答”。

先说测评设计。我更倾向于把幻觉拆成三类:无证据编造(fabrication)、证据错配(misattribution)、以及过度推断(overgeneralization)。为此我选了三套数据:Wiki开放问答(核对可溯源性)、新闻冷门事实(时效+细粒度考验)、StackExchange 摘要式问题(需要跨段聚合)。每个问题要求 Hermes 给出答案、引用链接(锚定到文字里),并标注信心。人工标注用两轮:第一轮看答案与证据是否一致;第二轮由独立标注者只看证据材料,判断答案是否可由证据推导,避免“被答案牵着走”。这样做是为了把“听起来像真话”的错觉过滤掉。

再说几个关键指标。除了传统的 EM/F1,我记录了:证据可溯源率(答案主张是否有明确链接支撑)、拒答适当率(确实缺证时选择澄清或拒绝)、以及主张-证据一致性分(将答案拆成原子断言逐条比对证据片段)。这组指标对幻觉更敏感,因为很多“接近正确”的回答,往往输在证据不闭合。

结果上,Hermes 在有检索介入的题目上,幻觉率比通用大模型基线低约一个量级,特别是在新闻冷门事实集里,证据可溯源率显著更高。原因有二:一是它默认把生成窗口里与答案直接相关的引文前置,二是当检索冲突时,它会给出“竞争性证据”并降置信心,这直接减少了拍脑袋的句子。不过,Hermes 在过度推断上仍有短板:当证据仅支持弱相关时,它倾向于补齐常识链条,导致“似是而非”的总结,这在 StackExchange 摘要题里更明显。

一个容易被忽视的点是拒答的度。很多系统为了追求“可用性”,把拒答阈值设得很低,导致幻觉率飙升。Hermes 的阈值相对稳健:当链接互相矛盾或缺乏一手来源时,它更愿意提出澄清问题或给出范围化回答。这会牺牲一点“流畅度”,但对降低幻觉是实打实有效。以“某技术规格的发布时间”这类问题为例,Hermes 会同时给出厂商博客与第三方报道,并标注发布时间存在地区差异,而不是直接报一个看似精确的日期。

当然,测评也有局限。首先,链接质量本身不等于事实质量,引用二手博客即便“可溯源”,也可能是错的。其次,人工标注对领域知识敏感,越专业的题目越容易出现标注分歧。为缓解这点,我在复核阶段加入了“证据层级”打分:官方文档最高,学术和主媒体次之,个人博客再次;当高层级与低层级冲突时,强制以高层级为准,Hermes 的答案在这条规则下仍保持较低幻觉,说明它在来源优先级的建模上做得还可以。

我的几个改进建议:第一,把“原子断言比对”做成在线约束,让模型在生成时逐句检查是否有对应证据片段支撑,而不是事后评估;第二,引入冲突证据的结构化呈现,比如在答案尾部自动生成“证据对照小节”,用同一主题的两个链接并排标注分歧点;第三,训练阶段增加“拒答奖励”,把诚实不答从“消极选择”变成正向优化目标。实践层面,用于生产的团队可以把“证据可溯源率”和“拒答适当率”设成发布门槛,先过关再谈文风润色。

总的来看,Hermes Agent 已经把开放域问答的幻觉率压到了一个相对可接受的区间,但真正决定体验上限的,依旧是“证据纪律”。当系统能稳定做到:每条主张都有来路、冲突信息能被标注、无证据时敢于说不知道,幻觉问题就不再是“是否存在”,而是“出现时是否被透明化”。这一步,Hermes 走在路上,但还有空间继续抠细节。
回复 转播

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关灯 在本版发帖
扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表