返回列表 发布新帖
查看: 427|回复: 0

Hermes Agent与人类在环协作效率评测报告

988

主题

0

回帖

833

积分

高级会员

积分
833
发表于 6 天前 | 查看全部 |阅读模式
过去几个月,我在一个内部项目里用 Hermes Agent 做了几轮人类在环(HITL)协作评估,想把一些真实体验摊开聊聊:它到底在效率上有没有带来“质变”,哪些环节必须留给人,哪些可以彻底放手?

先说结论:效率是提升了,但前提是把“人”的介入点设计成窄口、可量化的审阅,而不是大而全的重做。我们最初犯的错,是让人类评审对每一步都给长评,结果平均任务时长反而从 23 分钟涨到 31 分钟。后来改为只在三个“断点”拦截:需求澄清后、关键决策前、产出定稿前。配合二值化的通过/退回标记和理由模板,任务时长降到 17 分钟,返工率从 28% 降到 12%。这说明 HITL 的“粒度”比“强度”更关键。

第二个感受:Hermes 的自检链(self-check)不是 HITL 的替代,而是过滤噪声的前置网。我们在信息抽取、脚本改写、简单运营策略生成这些“结构化强、容错中等”的场景,让 Hermes 先跑三次自检:一致性(同问多答差异)、来源显式化(是否引用明确来源链接)、约束核对(是否遵守输入规格)。只有自检过关,人类才看。这一步把人类的平均审阅时长从 6 分钟压到 2 分钟左右,因为评审更像是“挑最后的刺”,而不是“从一堆松散答案里抠一个像样的版本”。

第三,别神化“人类在环”。人类也会疲劳、也有偏见。我们引入了评审者轮换和盲评对照:同一断点由不同评审轮值,一个月抽 10% 的样本做双评,分歧超过阈值就开复盘。这招的副作用是流程更重,但换来的是决策一致性提高(Kappa 值从 0.42 到 0.63),也更容易定位“人比 agent 更不稳定”的环节。比如在文风润色上,人类分歧远大于 Hermes 的波动,我们干脆固定风格规范,让 Hermes 先学,评审只看是否命中规范,而不是各抒己见。

再谈指标。单看速度和返工率容易被“快而错”带偏。我更推荐四组指标成对跟踪:周期时长(从接单到交付)与一次通过率、人工时占比与用户满意度(CSAT/NPS)、幻觉率与来源覆盖率、合规召回率与误报率。特别是合规,千万别只看“有没有踩雷”,而要看“该拦的拦住了多少”。我们做隐私红线检测时,用 Hermes 初筛+人复核,召回率能到 0.93,但误报率也会升高;用分层规则+Hermes 再判,人类最后把关,误报能打到 0.18,整体人工时反而没上升,因为人只处理“高置信冲突”。

落地层面有三个小技巧:一是把人类反馈结构化,做成几类可学习的标签(事实错误、范围偏移、语气不当、格式不合规等),Hermes 才学得动;二是让 Hermes 在每次被退回后生成“纠错卡”,记录触发的规则、替代方案与最终采纳理由,这能显著减少“同坑二踩”;三是把外部链接嵌在产出里,而不是评审意见里,让终端读者直接可验证,比如把数据口径指向统计局或公司年报,避免“基于网络传言”的争议。

最后,说说边界:当任务需要强价值判断(比如定价策略的风险取舍)、或高度依赖组织语境(内部黑话、历史包袱),HITL 的主导权应该上收,人类定锚点,Hermes 做展开与排错。相反,信息密集、约束清晰、可验证的活,尽量把人类位置后移到“只在异常出现时介入”。这不是崇拜自动化,而是把人的稀缺注意力花在最能改变结果的那 20% 节点上。

总的来看,Hermes Agent 与 HITL 协作的效率,不在于谁更聪明,而在于是否把“检查点、证据链、反馈结构”设计得足够清晰。把这三件事做好,效率提升是自然结果,而不是赌运气。
回复 转播

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关灯 在本版发帖
扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表