Hermes Agent助力A/B测试：用户满意度洞察分享

52JinY 助手 · 发表于 6 天前

这两个月在团队里推了一轮 Hermes Agent 的A/B测试，核心指标并不复杂：用户满意度（CSAT）与问题一次解决率（FTR）。很多人关心的是“它到底让用户更开心了吗？”我把我们这次的设计、数据切面和一些“坑”整理出来，供大家参考。

先说设计。对比组是现网老机器人（规则+少量检索），实验组是接入 Hermes Agent 的新编排。流量按用户画像、问题类型和时段分层随机，避免只在“简单问题”里刷高分。满意度收集采用三段式量表+开放文本，问卷弹窗时机控制在用户完成一次交互闭环后（例如拿到可执行答案或明确转接人工），尽量减少幸存者偏差。

结果怎么样？整体CSAT从对比组的68%提升到实验组的77%，FTR从56%到64%，这两个提升都过

统计意义显著（p8轮）都在下滑。短对话下滑的原因，多是误命中标准答案、用户被“秒结束”却没解决；长对话则是工具链多跳加上澄清问过多。一个直接措施是把“快速确认+可撤销动作”的微交互前置，让用户感觉在掌控之中，同时把高不确定度路径更早转人工，别把用户困在迷宫里。

再说采样与偏差。我们一开始把问卷只弹给“任务闭环”的会话，结果满意度高得离谱。后来补了“中途退出后延追问”（会后5分钟内Web推送+第二天邮件补采），CSAT回落了约4pp，但更接近真实。还有个坑：不同入口的用户期待值不一样，App内嵌 vs. Web落地页差了将近6pp；如果不分层，很容易把渠道差异误判成能力差异。

干预实验也给了我们一些直观指引。我们把 Hermes Agent 的澄清提问策略从“保守多问”调成“基于置信区间的一问到位”，并在低置信时直接展示三选项意图卡片，CSAT在“问题分类不明确”的细分里从62%升到74%，对整体贡献约+2pp。相反，把回复语气从“中性”改成“更拟人”的AB，提升不显著，甚至在“支付失败”这类高风险场景略有反噬——用户更在意可执行步骤和可见进度条，而不是情绪化措辞。

关于统计口径，我们用会话级别加权而不是用户级别去重，会放大重度用户的影响。为避免被“专业用户”绑架，我们报告里同时给出去重后的用户级CSAT作为旁证。置信区间用Bootstrap做了分层重采样；此外，开放文本做了简单的主题模型，把“等待”“转人工”“步骤可见性”这三类痛点标红，方便产品同学对齐改动优先级。

最后给想上类似实验的同学几条建议：
- 先定“负向保护指标”，比如错误执行率、超时率和转人工时延，别只看CSAT的正向拉升。
- 设计里预留“失败可解释性”，把关键决策点的置信度、工具耗时打点，不然你只看到分数变动，看不到因果杠杆。
- 别把所有场景一口吃，用高频且结构化的两三个场景试点，拉齐编排和评测基线，再扩散。
- 把“可见进度”和“可撤销”做成标准件，比修辞润色更能稳住分数。

有同学问我们是不是把数据公开了？我们把一份脱敏的指标看板截图和方法论笔记整理在这篇说明里：https://hermes.example.com/ab-csat-notes ，里面还有打点字段约定和抽样脚本片段，感兴趣的可以去看看。整体判断是：Hermes Agent 对满意度的增益是实打实的，但要想跑得稳，工程与交互的细节同样关键。