|
|
这两年做垂直场景微调(SFT/LoRA/RLHF)的体感是:同样一套底座模型,落到金融、医疗、法律,曲线完全不一样。简单说,金融最“听话”、法律最“讲理”、医疗最“怕死”。这里分享一些对比和踩坑。
先看金融。金融问答的数据相对规范,术语边界清晰,报表、指标、风控规则都有结构化来源,微调样本容易标准化。我的经验是,只要把口径对齐(比如回测区间、收益口径、风险指标定义),再加上足够的异常样本(极端行情、停牌、熔断场景),模型的稳定性提升很快。最直观的改进是“引用与口径一致性”:未微调前模型爱给“漂亮但泛泛”的策略建议;微调后会自动补充假设前提、时间窗口、基准,并能在被追问时回溯到口径。风险是过拟合:微调集如果只含牛市样本,模型会在任何问题上偏乐观。因此要做分布去偏:时间分片抽样、行业中性采样,以及把“拒答模板”训练进来(比如涉及内幕、个股买卖建议的合规拒绝)。
医疗场景更敏感。医学知识更新快、地域指南不一、同一症状分叉多,微调后模型最容易出现“自信的错误”。这里我更倾向两段式:检索增强(RAG)兜底权威指南+轻微调语气与结构,而不是重微调事实本身。微调重点放在沟通框架:先给安全限定(非诊断)、再列危险信号、再给居家处理与就医时点、最后给参考文献版本号。评测也要换思路:不要只看BLEU或一般问答准确率,而看“危害性指标”:错误用药建议率、延误就医建议率、禁忌症覆盖率。还有一个坑是多语言药品名、商品名与通用名混淆,微调集里必须统一成通用名并做别名映射,不然幻觉概率飙升。
法律相对介于两者之间,但更“讲边界”。法律问题往往不是标准答案,而是要“识别事实要件—匹配法条—给出可能路径—提示不确定性”。微调最大的收获在于结构化输出:模型会自觉按事实、争点、适用法条、既判案例对齐来写,阅读体验好很多。难点在时效与辖区差异,尤其是跨地区案件:同一关键词,不同法域解释不同。我倾向把法域、年份、法条版本做成强约束标签写进训练样本前缀,让模型一上来就问清“发生地、时间、争议金额”等关键元数据。如果忽略这步,微调后依然会“跨法域硬套”。评测上,不要只看条文匹配率,更要看“争点
聚焦命中率”和“可执行性”。前者看模型是否抓住真正决定裁判结果的关键要素(比如劳动争议里“是否存在劳动关系”的证据链),后者看给出的路径是否具备操作步骤与风险提示(起诉前函、证据清单、举证期限、可能的反制等)。另外,法律微调里最好训练“利益冲突自检”和“执业边界提示”,例如当问题涉及具体在押案件或正在进行的诉讼时,引导用户寻求本地执业律师,并明确免责声明与信息不构成法律意见。
再说数据构建的共性。三类场景里,最容易被忽略的是“反例”和“拒绝”。把不能答、不能做的样本做成高质量对话,长期看比多塞一点正向知识更划算:它能稳定边界,降低幻觉的社会成本 |
|