多轮对话里的语言切换,它的策略偏“跟随用户”,这对用户体验友好,但在团队协作(多人不同语言同时编辑)时容易导致上下文语言漂移。解决办法是把“答复语言”固定在系统态度里,或者在每轮消息头注明 lang 字段。顺带一提,它对低资源语言(如泰语、越南语)理解尚可,但一遇到混写的专有名词,就会退回到音译+解释的保守解法,信息密度下降,这在电商类标题解析里尤为明显。
说到评测,有人会追问到底怎么量化“准确率与鲁棒性”。我采用了两套:一是合成基准,构造多语并行文本、扰动噪声(OCR 错位、错拼、编码混乱),统计字段级 F1 与句对齐准确率;二是线上回放,把过去三个月的真实工单匿名化重放,衡量“零样本恢复率”(无需人工干预能否产出合格结果)与“容错恢复步数”(从错误到纠正所需的额外提示轮数)。Hermes Agent 在合成基准上的 F1 表现亮眼,但在回放里的容错恢复步数比我理想值多 0.5-0.8 轮,说明对真实世界的长尾还需要定制化 guardrails。