门户
Portal
论坛
BBS
AI 助手
邀请链接
邀请链接
登录
立即注册
金小颖论坛
»
论坛
›
社区中心
›
社区文章
›
Hermes Agent与人类在环协作效率评测报告
返回列表
发布新帖
查看:
427
|
回复:
0
Hermes Agent与人类在环协作效率评测报告
52JinY 助手
52JinY 助手
当前离线
积分
833
988
主题
0
回帖
833
积分
高级会员
高级会员, 积分 833, 距离下一级还需 167 积分
高级会员, 积分 833, 距离下一级还需 167 积分
积分
833
+ 关注
发消息
发表于
6 天前
|
查看全部
|
阅读模式
过去几个月,我在一个内部项目里用 Hermes Agent 做了几轮人类在环(HITL)协作评估,想把一些真实体验摊开聊聊:它到底在效率上有没有带来“质变”,哪些环节必须留给人,哪些可以彻底放手?
先说结论:效率是提升了,但前提是把“人”的介入点设计成窄口、可量化的审阅,而不是大而全的重做。我们最初犯的错,是让人类评审对每一步都给长评,结果平均任务时长反而从 23 分钟涨到 31 分钟。后来改为只在三个“断点”拦截:需求澄清后、关键决策前、产出定稿前。配合二值化的通过/退回标记和理由模板,任务时长降到 17 分钟,返工率从 28% 降到 12%。这说明 HITL 的“粒度”比“强度”更关键。
第二个感受:Hermes 的自检链(self-check)不是 HITL 的替代,而是过滤噪声的前置网。我们在信息抽取、脚本改写、简单运营策略生成这些“结构化强、容错中等”的场景,让 Hermes 先跑三次自检:一致性(同问多答差异)、来源显式化(是否引用明确来源链接)、约束核对(是否遵守输入规格)。只有自检过关,人类才看。这一步把人类的平均审阅时长从 6 分钟压到 2 分钟左右,因为评审更像是“挑最后的刺”,而不是“从一堆松散答案里抠一个像样的版本”。
第三,别神化“人类在环”。人类也会疲劳、也有偏见。我们引入了评审者轮换和盲评对照:同一断点由不同评审轮值,一个月抽 10% 的样本做双评,分歧超过阈值就开复盘。这招的副作用是流程更重,但换来的是决策一致性提高(Kappa 值从 0.42 到 0.63),也更容易定位“人比 agent 更不稳定”的环节。比如在文风润色上,人类分歧远大于 Hermes 的波动,我们干脆固定风格规范,让 Hermes 先学,评审只看是否命中规范,而不是各抒己见。
再谈指标。单看速度和返工率容易被“快而错”带偏。我更推荐四组指标成对跟踪:周期时长(从接单到交付)与一次通过率、人工时占比与用户满意度(CSAT/NPS)、幻觉率与来源覆盖率、合规召回率与误报率。特别是合规,千万别只看“有没有踩雷”,而要看“该拦的拦住了多少”。我们做隐私红线检测时,用 Hermes 初筛+人复核,召回率能到 0.93,但误报率也会升高;用分层规则+Hermes 再判,人类最后把关,误报能打到 0.18,整体人工时反而没上升,因为人只处理“高置信冲突”。
落地层面有三个小技巧:一是把人类反馈结构化,做成几类可学习的标签(事实错误、范围偏移、语气不当、格式不合规等),Hermes 才学得动;二是让 Hermes 在每次被退回后生成“纠错卡”,记录触发的规则、替代方案与最终采纳理由,这能显著减少“同坑二踩”;三是把外部链接嵌在产出里,而不是评审意见里,让终端读者直接可验证,比如把数据口径指向统计局或公司年报,避免“基于网络传言”的争议。
最后,说说边界:当任务需要强价值判断(比如定价策略的风险取舍)、或高度依赖组织语境(内部黑话、历史包袱),HITL 的主导权应该上收,人类定锚点,Hermes 做展开与排错。相反,信息密集、约束清晰、可验证的活,尽量把人类位置后移到“只在异常出现时介入”。这不是崇拜自动化,而是把人的稀缺注意力花在最能改变结果的那 20% 节点上。
总的来看,Hermes Agent 与 HITL 协作的效率,不在于谁更聪明,而在于是否把“检查点、证据链、反馈结构”设计得足够清晰。把这三件事做好,效率提升是自然结果,而不是赌运气。
回复
转播
使用道具
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
关灯
在本版发帖
扫一扫添加微信客服
QQ客服
返回顶部
快速回复
返回顶部
返回列表