CV君 2025-09-23 16:09 江苏
当前,大型语言模型(LLM)的训练和微调几乎完全依赖于“下一个词元预测”(Next Token Prediction)这一自回归的生成式任务。然而,在计算机视觉领域,一个名为 联合嵌入预测架构(Joint Embedding Predictive Architectures, JEPA) 的非生成式、在嵌入空间进行预测的自监督学习范式,已被证明在学习表征方面远优于像素级的生成式方法。这一现象引出了一个关键问题:语言模型的训练能否从视觉表征学习中借鉴成功经验?
来自Atlassian、纽约大学(NYU)和布朗大学的研究者们(包括图灵奖得主Yann LeCun)首次成功地将JEPA的思想应用于LLM的训练,提出了 LLM-JEPA。该方法通过在标准LLM损失的基础上,增加一个JEPA风格的预测损失,显著提升了模型在多种任务和多种模型架构上的性能,并且表现出强大的抗过拟合能力。在参数高效微调(如LoRA)场景下,LLM-JEPA甚至能用少量可训练参数达到全量微调的效果。
论文标题:LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures
作者:Hai Huang (Atlassian), Yann LeCun (纽约大学), Randall Balestriero (布朗大学)
研究背景与意义
当前,大语言模型(LLM)的训练、微调和评估主要依赖于输入空间(input-space)的重建,即通过“下一个词元预测”(Next Token Prediction)来学习。然而,在计算机视觉领域,研究者们发现,在嵌入空间(embedding-space)中进行学习的目标,例如联合嵌入预测架构(Joint Embedding Predictive Architectures, JEPA),其性能远超输入空间的对应方法。
JEPA的核心思想是,通过预测一个数据样本在嵌入空间中的不同“视角”(view)下的表征,来学习数据的抽象语义信息,而不是去像素级地重建图像。这种方法可以学习到更鲁棒、更具泛化能力的特征。
那么,语言模型能否借鉴视觉领域的成功经验呢?这篇论文的作者们迈出了探索的第一步,他们设计了一种适用于LLM的JEPA方案,命名为 LLM-JEPA ,旨在不牺牲LLM生成能力的前提下,提升其抽象推理和表征学习的能力。
LLM-JEPA:核心方法
LLM-JEPA的核心在于将传统的LLM损失(基于下一个词元预测)与JEPA损失相结合。作者巧妙地利用了自然语言任务中天然存在的“多视角”数据。
例如,在“自然语言转正则表达式”或“自然语言转SQL”等任务中,“自然语言描述”(Text)和对应的“代码”(Code)可以被看作是同一底层逻辑的两个不同视角。
上图直观展示了这种多视角思想。左侧是LLM-JEPA的通用框架,模型学习从Text的嵌入表示来预测Code的嵌入表示。右侧则是两个具体的数据集示例:NL-RX-SYNTH(自然语言到正则表达式)和Spider(自然语言到SQL)。
LLM-JEPA的整体损失函数如下:
其中:
Loss_LLLM
是标准的自回归下一个词元预测损失,用于保持模型的生成能力。d(...)
是JEPA损失,它计算“从Text视角预测出的Code嵌入”与“真实的Code嵌入”之间的距离(如余弦相似度)。γ
和λ
是平衡两个损失项的超参数。
通过最小化这个联合损失,LLM-JEPA不仅学习生成流畅的文本,更学习理解Text和Code之间更深层次的语义关联。
实验设计与结果分析
作者在一系列模型(Llama3, Gemma2, OpenELM, OLMo)和数据集(NL-RX-SYNTH, Spider, GSM8K等)上进行了广泛的实验,结果令人振奋。
全量微调性能显著提升
如下图所示,无论是在哪个模型或数据集上,LLM-JEPA(绿色柱)的微调性能都显著优于基线方法(蓝色柱)。
具体的,在NL-RX-SYNTH数据集上,使用LLM-JEPA微调的Llama-3.2-1B-Instruct模型准确率达到了 71.46% ,远高于基线方法的57.29%。在其他模型如gemma-2-2b-it和OpenELM-1_1B-Instruct上也观察到了类似的巨大性能提升。
LoRA微调:更少参数,更好效果
在参数高效的LoRA微调场景下,LLM-JEPA的优势更加明显。实验表明,使用LLM-JEPA进行LoRA微调,不仅收敛更快,而且能用更少的可训练参数达到甚至超越全量微调的效果。
如下表所示,当LoRA rank为512时(仅占总参数的22.59%),LLM-JEPA的准确率达到了 72.41% ,与全量微调的基线模型性能相当(57.29%),甚至超过了全量微调的LLM-JEPA(70.42%)。这展示了其在高效微调方面的巨大潜力。
此外,LLM-JEPA在LoRA微调中表现出更强的抗过拟合能力。如下图所示,当基线方法开始过拟合时,LLM-JEPA的性能仍在持续提升。
预训练阶段同样有效
作者还探索了在预训练阶段就引入LLM-JEPA。结果显示,经过LLM-JEPA预训练的模型,在下游任务上进行微调时,也能获得比标准预训练模型更好的性能。这证明了JEPA目标在学习通用语言表征方面的价值。
为什么LLM-JEPA有效?
作者通过损失分析发现,性能的提升主要归功于JEPA损失项。如下图所示,基线方法和LLM-JEPA的下一个词元预测损失(LLLM loss)非常接近,但LLM-JEPA通过最小化预测损失(pred loss),学习到了更好的表征,从而带来了巨大的准确率差距。
进一步的分析表明,LLM-JEPA促使模型学习到了从Text嵌入到Code嵌入的近似线性变换。这说明模型捕捉到了两个视角之间内在的、结构化的语义关系。
生成样例对比
从生成的正则表达式样例中可以直观地看到,LLM-JEPA(ours)生成的代码更准确、更简洁,错误更少。
总结与贡献
这篇论文做出了以下关键贡献:
首次提出LLM-JEPA:成功地将JEPA思想应用于大语言模型,提出了一种新的、有效的训练目标。
显著提升SOTA性能:在多种模型和任务上,尤其是在代码生成等需要深度语义理解的任务上,显著超越了传统的微调方法。
提升微调效率:证明了LLM-JEPA在LoRA等参数高效微调方法上具有巨大优势,能够以更低的成本达到更高的性能。
开源贡献:作者开源了代码,为社区进一步研究和应用该方法提供了宝贵的资源。
总而言之,LLM-JEPA为提升大语言模型的表征学习能力和微调效率开辟了一条新的、充满希望的道路。它成功地在语言和视觉这两个看似不同的领域之间架起了一座桥梁,展示了跨领域思想借鉴的巨大潜力。CV君认为,这项工作对于未来如何构建更强大、更高效的LLM具有重要的启发意义。
了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉感谢点赞支持。