|
|
过去一年,大模型在“会不会算、能不能推理清楚”这个问题上,走出了一条从工程取巧到系统修正的路径。最早的链式思维(Chain-of-Thought, CoT)像是给模型一张“草稿纸”:别急着报答案,先把心路历程写出来。这个简单的提示工程,意外释放了大量潜力,尤其在多步算术、逻辑题、编程推导中效果立竿见影。但它也带来两个隐忧:第一,长链未必优雅,冗余推理可能放大幻觉;第二,人为提示的“慢想”未能从根子里改变模型的目标函数,换个场景就不稳。
接棒的是奖励模型与偏好优化的崛起。思路很直接:既然语言模型天生是“下一个词”的预测器,那就额外训练一个“好不好想”的评委(奖励模型),让模型不仅会
输出,还能自评“这条推理更靠谱”。早期的做法是让人类打分,后来演化为比较式偏好(A比B好),再到基于结果可验证性的自动信号:对数学题,你能不能给出可检验的最终答案;对代码题,单测是否通过。奖励模型就像把“求下一个词”变成“求一个能通关的策略”,学习目标开始对齐任务本身。
但单有奖励还不够,关键在于把“推理过程”纳入训练闭环。两个趋势值得关注:其一是生成多样化思路,再用奖励筛选“好链条”,类似搜索或集束解码;其二是过程监督,而非只看终局对错。比如在解方程的中间步骤上打分,惩罚偷懒跳步或自相矛盾,让模型在每一环都保持可检验性。实践中,这常与工具使用绑定:调用计算器、定理库、符号求解器,把“会想”与“会算”解耦,减少语言模型在数值细节上的脆弱性。
链式思维也在进化。最初的长链是铺陈,如今更讲究结构化:树状思维(ToT)把同一问题分叉成多条子路线,用奖励模型做节点选择;图式推理尝试在不同子问题间回溯与合并,避免线性链条的一条路走到黑。还有“反思—修正”范式:先产出草案,再对草案逐条批注并返工,像把审稿人拉进了大脑。它们的共同点是承认“第一次就对”并不现实,通过搜索、反思和裁决提升平均质量。
一个容易被忽视的细节是“短证据偏好”。如果奖励只按最终正确与否打分,模型会倾向于生成最短、最安全的解释;但数学与推理经常需要充分的中间展开。因此,新的奖励设计会鼓励“必要且
充分”的证据,而不是无差别地拉长。比如对关键中间式的对齐、对引用定理的最小充分性打分;对“掩耳盗铃式”的跳步直接惩罚。这种细粒度信号,让模型学会在需要时展开,在不需要时收束,追求的是信息密度而非字数。
另一个变化是“分工明确”。过去我们迷信一个超大模型包打天下,如今更主流的是“推理-执行-校验”解耦:小而专的算子负责计算,基础模型产出多条候选推理,大模型或奖励模型做裁判与合并。像做题时的“三角关系”:出思路的人不一定亲自算到小数点后,验算的人也不负责创意,但三者合起来更稳。这种模块化,让系统在数学题上更接近“可证正确”的味道。
数据层同样在洗牌。与其海量抓取通识文本,不如精炼高质量、可自动判定的难题集,配套过程标注与单测。更进一步的自博弈与合成数据,开始从“出题-解题-点评”形成内循环:模型自己产题、解题,再请奖励模型挑刺;人类介入的角色逐渐转向设计规范与边界条件,而非逐条改作文。这极大降低了成本,也让分布外泛化更有希望。
当然,风险与幻觉不会自动消失。奖励模型本身会被“迎合”,出现过度优化(Reward Hacking);过程监督若过细,可能把模型束缚成“教条主义者”,缺少跳出框架的
灵感与直觉。真正有效的方案,往往是在“可检验的纪律”和“探索性的自由”之间拉一条弹性栈:允许偏离常规,但必须回到可验证的支点上落地。比如探索阶段放宽奖励阈值、接受多样化路径;收敛阶段严控一致性、用工具与单测强力约束,防止花哨但空心的推理。
从应用侧看,链式思维与奖励模型的结合,正在把“能答对”扩展为“能解释、能复查、能复用”。解释意味着给出可追溯的中间证据;复查意味着对同题多解的一致性评估与交叉验证;复用则是把稳定的子链条沉淀为可调用的“推理模块”,下次遇到同类问题可以直接拼装。长期看,这更像是把语言模型从“话术生成器”升级为“可编排的推理系统”。
未来还会出现两个值得押注的方向。其一是形式化桥接:把自然语言推理逐步投影到可检验的形式系统上,例如 Lean/Isabelle 这类证明助理,或受限领域的语义执行器。语言用于探索与解释,形式系统用于最终裁决。其二是多代理博弈:不同偏好的代理分别优化“正确性、简洁性、可解释性、计算成本”,在对抗与协商中产出更鲁棒的解。这样做的要义是把“评价维度”外显化,避免单一奖励把复杂目标扁平化。
回到开头的问题:推理与数学能力的强化,究竟是提示工程的胜利,还是训练目标的重写?现实答案是二者互为梯子。链式思维为模型创造了“可被学习的过程数据”,奖励模型与过程监督则把这些过程内化为目标函数的偏好,工具与形式系统提供了坚实的可检验地面。三者闭环,才可能真正降低幻觉、提升外推能力。
对一线实践者,有三点操作性建议。第一,把“过程数据”当成一等公民:保留中间式、错误与修正,不要只存最终答案。第二,用可验证信号替代主观打分:能写单测就别只做偏好对;能插计算器就别让模型心算。第三,奖励设计宁缺毋滥:明确鼓励“必要且充分”的证据密度,避免无意义的长链崇拜。等这些地基打好了,再讨论更大的参数量或更花哨的搜索策略,才有意义。 |
|