|
|
过去两年,围绕大模型“安全对齐”和“红队评测”的讨论越来越像攻防竞赛:一边是不断加固的策略与护栏,另一边是层出不穷的越狱技巧。把两者放在一起看,焦点其实不在“能否被越狱”,而在“越狱成本曲线是否越来越陡、是否能被持续监测与恢复”。
先说“安全对齐”。工程上它是多层手段叠加:数据侧过滤与标注、对齐微调(SFT/RLHF/RLAIF)、推理时安全代理、检索与工具调用的策略隔离、以及上线后的反馈闭环。对齐不是“一次性疫苗”,更像“持续补丁”:新型提示技巧、组合式工具链、跨模态输入都会开新洞。真正有效的做法,是把对齐机制前移到能力边界的塑形(如拒答策略与最小必要信息原则)、中置到推理链路(安全思维链/审计链并行)、后置到观测与回滚(灰度、热修、签名版模型切换)。单点加固远不如体系化的“纵深防御”。
再看“红队评测”。优秀的红队不只是在提示词上耍花活,而是模拟现实 |
|