长思维链里的推理步骤, 哪些最关键? 三招锁定LLM的「命门句子」

  • 2025-07-10 05:15:02
  • 353

机器之心报道

思维链里的步骤很重要,但有些步骤比其他步骤更重要,尤其是在一些比较长的思维链中。

找出这些步骤,我们就可以更深入地理解 LLM 的内部推理机制,从而提高模型的可解释性、可调试性和安全性。

但是,这些步骤没有那么好找,因为每个生成的 token 都依赖于之前的所有 token,其计算难以分解。

在最近的一项研究中,来自杜克大学和 Aiphabet 的研究者提出,在句子层面分析推理痕迹或许是一种有前途的方法。

论文标题:Thought Anchors: Which LLM Reasoning Steps Matter?

作者指出,与 token 相比,句子的连贯性更强,并且往往与 LLM 提取的推理步骤相一致;与段落相比,句子不太可能混淆推理步骤,并且可以作为连接不同步骤的有效对象。

作者提出了三种互补的方法来分析 LLM 的推理过程,这些方法旨在识别推理过程中的关键步骤,即所谓的「思维锚(thought anchor)」,这些步骤对后续推理过程具有重大影响。

第一种是黑盒方法。它通过反事实分析衡量句子对最终答案的影响。即通过比较模型在包含某个句子和不包含该句子时的最终答案分布,来评估该句子对最终答案的影响。

第二种是白盒方法。它通过注意力模式识别关键句子,揭示关键句子如何影响推理轨迹的其余部分。

第三种是因果归因方法。它通过抑制注意力直接测量句子之间的因果关系,即抑制对特定句子的注意力如何影响后续每个句子的 logits。

每种方法都为思维锚的存在提供了证据。这些推理步骤非常重要,对后续推理过程产生了不成比例的影响。这些思维锚通常是计划句或回溯句。

作者提供了一个开源工具,用于可视化方法的输出。

开源工具链接:http://thought-anchors.com/

这项研究也为更精确地调试推理失败、识别不可靠性的来源以及开发提高推理模型可靠性的技术打开了大门。

通过反事实测量句子影响

有些句子比其他句子更重要,但哪些句子最重要取决于我们如何定义和衡量重要性。作者将句子层面的重要性表述为一个反事实影响的问题:包含或排除一个句子会如何影响后续步骤以及模型的最终输出?

在之前的研究中,句子重要性通常是通过在推理过程中的每个句子位置强制模型给出最终答案来近似的,这种方法叫做「forced-answer」(如图 3A)。

这种方法的一个局限性在于,对于某些最终答案而言,句子 S 可能是必要的,但 LLM 在推理过程中往往较晚才生成该句子。这意味着,对于出现在 S 之前的所有句子,强制回答的准确率都会很低,从而无法准确判断这些早期步骤的重要性。

考虑一个由句子以及最终答案 A 组成的推理轨迹。作者通过重新采样来定义一个度量,用以衡量句子 S 导致答案 A 出错的程度。作者称这个度量为反事实重要性。他们通过以下三个步骤来激励并定义这个度量:

推理轨迹采样。对于给定的句子 S_i,生成 100 次推理轨迹。一种情况下包含句子 S_i(干预条件),另一种情况下用一个语义不同的句子 T_i 替代 S_i(基础条件)。

分布比较。计算两种条件下最终答案分布的 KL 散度。从而得到一个衡量句子 S_i 改变答案程度的标量。作者称其为重采样重要性度量。

语义过滤。重采样重要性的问题在于,如果 T_i 与 S_i 相同或相似,那么我们无法得知 S_i 是否重要。因此,作者通过计算句子对的余弦相似度,并设定一个相似度阈值,筛选出那些与原句子 S_i 语义不同的替代句子 T_i。这样可以避免因替代句子与原句子过于相似而导致的分析偏差,从而更准确地评估 S_i 对最终答案的影响。

由于作者在给定句子 S_i 之后重新采样所有步骤,因此避免了上述强制回答方法的局限性。

在数据集中,他们发现规划生成(Plan generation)和不确定性管理(uncertainty management)例如,回溯)句子的反事实重要性始终高于其他类别的句子,如事实检索或主动计算(见图 3B)。这支持了这样一种观点:高层次的组织性句子可以锚定、组织并引导推理轨迹。作者认为,与强制回答重要性和先前基于 token 或注意力的度量相比,这种方法提供了更有信息量的结果。

通过注意力聚集衡量句子重要性

作者假设重要的句子可能会受到下游句子更多的关注。尽管注意力权重并不一定意味着因果联系,但高度的关注是重要的句子可能对后续句子施加影响的合理机制。作者进一步推测,对重要句子的高度关注可能由特定的注意力头驱动,通过追踪这些头,可能能够确定关键句子。

作者评估了不同的头在多大程度上将注意力集中在特定的句子上。首先,对于每个推理轨迹,他们将每个注意力头的 token-token 注意力权重矩阵取平均值,形成一个句子 - 句子矩阵,其中每个元素是两个句子之间所有 token 对的平均值。基于每个注意力矩阵,他们计算其对角线下方列的平均值,以衡量每个句子从所有下游句子中获得的关注程度;只在相隔至少四个句子的句子对之间取平均值,以专注于远距离的连接。这为每个头生成了一个分布(例如,图 4A),并且每个头通常将注意力集中在特定句子上的程度可以通过其分布的峰度来量化(对每个推理轨迹进行计算,然后在轨迹之间取平均值)。绘制每个头的峰度图表明,一些注意力头强烈地将注意力集中在推理轨迹中特定的、可能是重要的句子上(图 4B)。

图 5 表明,规划生成、不确定性管理和自我检查(self checking)句子始终通过接收头获得最多的关注(见图 5),而主动计算句子获得的关注最少。进一步与这一发现一致的是,根据重采样方法,那些获得高接收头关注的句子往往也会对下游句子产生更大的影响。这些发现与以下观点相符:推理轨迹是围绕高层句子构建的 —— 这些句子启动的计算可能连接高层陈述,但对整体推理路径的影响可能微乎其微。

通过「注意力抑制」衡量句子重要性

自然而言,考察注意力权重存在一个固有局限:它们无法衡量因果关系。此外,接收头未必适合识别句子与单个后续句子间的关联。因此,作者接下来聚焦于句子间依赖关系的因果归因分析。

基于重采样的句子间分析虽能考察此类依赖关系,但在映射逻辑连接时精度有限 —— 因为反事实重要性反映的是句子对另一句子的总效应(包括直接和间接影响)。而本文方法旨在分离句子间的直接影响,从而有望实现对逻辑连接更精确的建模。

作者通过抑制对特定句子的所有注意力(所有层和头),观察其对后续句子的影响。具体而言,影响程度定义为 token logits 与基线 logits(未抑制时)的 KL 散度。对后续句子的总效应计算为其组成 token log-KL 散度的平均值。

该方法基于两个假设:

token logits 能准确捕捉句子的语义内容;

注意力抑制不会导致分布外行为的干扰。

因此需验证注意力抑制法与重采样法的相关性 —— 后者虽精度较低,但不依赖上述假设。

注意力抑制矩阵与重采样矩阵的值呈现显著相关性。在 20 条推理轨迹中,19 条显示正相关。当仅分析推理轨迹中相距 5 句以内的案例时(可能更好捕捉直接效应),相关性更强。考虑到两种方法测量的是因果关系的不同维度,且重采样法本身包含随机噪声,这些相关系数具有实质意义。该结果支持了重采样方法的有效性。

案例研究

所采用的三种技术覆盖了推理轨迹中不同层面的归因分析。接下来,作者通过模型对具体问题的响应展示了这些技术的实用性和互补性。选用的例题是:「当十六进制数 66666_16 转换为二进制表示时,它有多少个二进制位(比特)?」

重采样

模型处理此问题的思路是:首先考虑 66666_16 包含 5 个十六进制位,而每个十六进制位可用 4 个二进制位表示。基于此逻辑,思维链最初得出「20 比特」的答案。然而这一初始答案忽略了 6_16 实际对应 110_2(而非 0110_2,因其最前面的 0 无效),因此正确答案应为「19 比特」。在第 13 句时,模型通过启动将 66666_16 转换为十进制再转二进制的计算,转向了正确解答。

重采样方法揭示了这一初始错误轨迹和关键转折点(图 2A 已展示)。具体表现为:第 6-12 句期间预期准确率持续下降,但第 13 句使反事实准确率急剧上升。值得注意的是,若采用强制模型立即生成响应的评估方法(如部分已有研究所示),则会完全错过第 13 句的关键作用 —— 该方法仅会得到 0 准确率。

接收头

模型得出最终正确答案的推理轨迹可分解为多个计算模块(见图 6 流程图)。首先,模型建立将 66666_16 转换为十进制的计算公式(第 13-19 句);接着执行该公式的计算,得出 66666_16 对应的十进制值为 419,430(第 20-33 句);随后通过提出并求解新公式,确定正确答案为「19 比特」(第 34-41 句)。此时模型注意到与早期「20 比特」答案的矛盾(第 42-45 句),于是启动双重验证计算:先确认十六进制转十进制的准确性(第 46-58 句),再校验二进制转换的正确性(第 59-62 句)。在强化对「19 比特」答案的确信后,模型最终发现初始「20 比特」错误的根源:「因最前面的 0 不计入位数」(第 66 句)。

上述过程基于作者对注意力模式的分析:接收头精准定位了发起计算或陈述关键结论的句子,从而将推理轨迹划分为具有明确意义的模块(图 6)。

注意力抑制分析

除了被组织成计算模块外,该推理过程还展现出与句子间依赖关系相关的框架结构(图 6)。其中一个结构特征是包含错误提议、发现矛盾及最终解决的自我纠正模式。具体而言,模型最初提出「20 比特」的错误答案(第 12 句),随后决定重新核验。这导致与通过十进制转换计算得出的「19 比特」答案产生矛盾(第 43-44 句)。在重新核验支持「19 比特」答案的运算后,模型回到该矛盾点(第 65 句),最终解释为何「20 比特」答案是错误的(第 66 句)。这可视为一个初步的思维链回路:两个相互冲突的结论产生矛盾,进而促使模型解决该矛盾。

在这个大跨度框架中,还存在验证先前计算的更深层依赖关系。具体表现为:模型先完成 66666_16 转换为十进制值 419,430 的计算(第 32 句),随后决定核验该转换结果(第 46 句),最终确认原始值正确(第 59 句)。这可视作思维链回路的进一步体现。

作者基于论文前面提到的注意力抑制矩阵识别出这些关键连接,该矩阵在这些关联位置呈现局部最大值(12→43、43→65、12→66;32→46、32→59)。值得注意的是,注意力抑制技术定位的多数句子与接收头(receiver heads)高度关注的句子存在重叠。相较于接收头的结论,注意力抑制技术还展示了信息是如何在这些构建推理轨迹的关键句子之间流动的。

更多细节请参见原论文。