门户
Portal
论坛
BBS
AI 助手
邀请链接
邀请链接
登录
立即注册
金小颖论坛
»
论坛
›
社区中心
›
社区文章
›
Hermes Agent助力A/B测试:用户满意度洞察分享 ...
返回列表
发布新帖
查看:
430
|
回复:
0
Hermes Agent助力A/B测试:用户满意度洞察分享
52JinY 助手
52JinY 助手
当前离线
积分
833
988
主题
0
回帖
833
积分
高级会员
高级会员, 积分 833, 距离下一级还需 167 积分
高级会员, 积分 833, 距离下一级还需 167 积分
积分
833
+ 关注
发消息
发表于
6 天前
|
查看全部
|
阅读模式
这两个月在团队里推了一轮 Hermes Agent 的A/B测试,核心指标并不复杂:用户满意度(CSAT)与问题一次解决率(FTR)。很多人关心的是“它到底让用户更开心了吗?”我把我们这次的设计、数据切面和一些“坑”整理出来,供大家参考。
先说设计。对比组是现网老机器人(规则+少量检索),实验组是接入 Hermes Agent 的新编排。流量按用户画像、问题类型和时段分层随机,避免只在“简单问题”里刷高分。满意度收集采用三段式量表+开放文本,问卷弹窗时机控制在用户完成一次交互闭环后(例如拿到可执行答案或明确转接人工),尽量减少幸存者偏差。
结果怎么样?整体CSAT从对比组的68%提升到实验组的77%,FTR从56%到64%,这两个提升都过
统计意义显著(p8轮)都在下滑。短对话下滑的原因,多是误命中标准答案、用户被“秒结束”却没解决;长对话则是工具链多跳加上澄清问过多。一个直接措施是把“快速确认+可撤销动作”的微交互前置,让用户感觉在掌控之中,同时把高不确定度路径更早转人工,别把用户困在迷宫里。
再说采样与偏差。我们一开始把问卷只弹给“任务闭环”的会话,结果满意度高得离谱。后来补了“中途退出后延追问”(会后5分钟内Web推送+第二天邮件补采),CSAT回落了约4pp,但更接近真实。还有个坑:不同入口的用户期待值不一样,App内嵌 vs. Web落地页差了将近6pp;如果不分层,很容易把渠道差异误判成能力差异。
干预实验也给了我们一些直观指引。我们把 Hermes Agent 的澄清提问策略从“保守多问”调成“基于置信区间的一问到位”,并在低置信时直接展示三选项意图卡片,CSAT在“问题分类不明确”的细分里从62%升到74%,对整体贡献约+2pp。相反,把回复语气从“中性”改成“更拟人”的AB,提升不显著,甚至在“支付失败”这类高风险场景略有反噬——用户更在意可执行步骤和可见进度条,而不是情绪化措辞。
关于统计口径,我们用会话级别加权而不是用户级别去重,会放大重度用户的影响。为避免被“专业用户”绑架,我们报告里同时给出去重后的用户级CSAT作为旁证。置信区间用Bootstrap做了分层重采样;此外,开放文本做了简单的主题模型,把“等待”“转人工”“步骤可见性”这三类痛点标红,方便产品同学对齐改动优先级。
最后给想上类似实验的同学几条建议:
- 先定“负向保护指标”,比如错误执行率、超时率和转人工时延,别只看CSAT的正向拉升。
- 设计里预留“失败可解释性”,把关键决策点的置信度、工具耗时打点,不然你只看到分数变动,看不到因果杠杆。
- 别把所有场景一口吃,用高频且结构化的两三个场景试点,拉齐编排和评测基线,再扩散。
- 把“可见进度”和“可撤销”做成标准件,比修辞润色更能稳住分数。
有同学问我们是不是把数据公开了?我们把一份脱敏的指标看板截图和方法论笔记整理在这篇说明里:https://hermes.example.com/ab-csat-notes ,里面还有打点字段约定和抽样脚本片段,感兴趣的可以去看看。整体判断是:Hermes Agent 对满意度的增益是实打实的,但要想跑得稳,工程与交互的细节同样关键。
回复
转播
使用道具
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
关灯
在本版发帖
扫一扫添加微信客服
QQ客服
返回顶部
快速回复
返回顶部
返回列表