原创 让你更懂AI的 2025-10-19 12:35 北京
表征工程的下一站:实时思维控制
过去几年,Prompt Engineering 通过设计提示词引导大模型生成答案,而 Context Engineering 进一步强调优化输入上下文,使模型在推理过程中获得更多相关信息,从而提升理解力与生成效果。
如今,研究者发现,大模型的“脑回路”可以被更直接地干预和调控(steering)。这意味着,我们不必重新训练模型,也不用依赖复杂的提示词,仅在推理阶段就能让模型的行为更可控、更符合需求;是一种低成本、可控性强的解决方案。
为什么要Steer:实际应用中的痛点
提示不稳:同样的问题,换个说法答案可能完全不同。
微调昂贵:全量训练或指令微调成本高,还可能破坏模型已有能力。
推理灵活:Steering 可在运行时生效,“即插即用”。
Steering 技术则提供了一种全新的思路:在模型推理过程中,通过直接干预其内部的激活态(Activation),来实时引导其生成行为。这就像在大模型高速运转的大脑中,直接激活或抑制某些“思维区域”,使其朝着你期望的方向思考。
这种方法就像是在控制方向盘,让你在模型生成答案的每一步都能实时、精准地调控它的“想法”。
Steering的历史发展
Steering 建立在 表征工程(Representation Engineering)[1] 和线性假说(Linear Hypothesis)[2] 的基础上。
研究者发现,大模型的隐藏层并不是杂乱无章的,而是存在某种结构化的语义(知识)空间。
这就好比模型的“脑海”里有很多方向:一个方向可能代表“开心”,另一个方向代表“伤心”。如果我们能找到并操控这些方向,就能改变模型的行为。
早期经典的 CAA [3] 方法通过对比两个相反的概念,来找到控制模型行为的方向。
比如,你想让模型更“诚实”,你可以用模型诚实回答问题时的内部激活状态 减去不诚实回答的内部激活状态 ,就得到了“诚实”这个概念的方向向量 :
是正向(诚实)回复内容在前向传播过程中第 层的 hidden state,同理 是负向(不诚实)回复内容在前向传播过程中第 层的 hidden state。通常 取模型 middle layers 的某一层。
在后续的推理中,只要把这个向量加到模型里,就能让它像打了“诚实”的兴奋剂一样,生成更诚实的回答。
随后,STA [4] 进一步把复杂的行为拆解成更基础的“原子单元”,找到这些最小单元后就能像搭积木一样,在模型里组合、激活它们,从而实现稳健的控制。 如下图所示 STA 可以精准地提升模型的安全防御能力。
Anthropic 在 steering 策略上也做了大量的探索,比如寻找大模型各种行为的方向向量,以及用大模型的人格向量 [5] 解释模型的风险行为,并提倡借助人格向量筛选数据并监控模型的训练范式。
调控千亿超大模型思维方式的策略RICE(已被NeurIPS 2025接收)
腾讯联合浙江大学深入研究,联合提出调控超大模型思维方式的策略 RICE [6]。RICE 使用标准化点互信息指标精确识别 MoE 架构模型中负责推理的认知专家。在模型推理过程中只需要激活并强化两个认知专家,就能使 Deepseek-R1 的数学推理能力提高 10%。
与传统的提示工程或解码约束方法相比,该工作提出的策略在无需额外训练的前提就能提升模型的认知能力且保持了模型的通用能力,为未来 MoE 架构模型的设计提供了新的思路。
总的来说,从最初的简单对话,到能够像握方向盘一样对 AI 行为进行实时引导,Steering 技术为我们提供了一种更直接的方式来控制模型的决策过程。它也许可以让我们有机会逐步揭秘 AI 的行为规律,更好地引导其在不同任务中发挥作用。
参考文献
[1] Representation Engineering: A Top-Down Approach to AI Transparency
[2] The Linear Representation Hypothesis and the Geometry of Large Language Models
[3] Steering Llama 2 via Contrastive Activation Addition
[4] Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms
[5] Persona vectors: Monitoring and controlling character traits in language models
[6] Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·