动态列表

一半人明天不上班，GDP不会掉一点！耶鲁大学揭AGI残酷真相
告别胶水代码，5倍飚速！无问芯穹首次揭秘，Infra智能体蜂群登场
Depth Anything再出新作！浙大 & 港大出品：零样本，优化任意深度图
H-1B「天价签证」引爆恐慌！印裔精英返乡梦碎，2800亿市场剧震
突发：甲骨文CEO下台！刚和OpenAI签下3000亿美元大单，或因路线斗争
年轻一代创作者，学会与 AI 共舞
MiniCPM-V 4.5技术报告正式出炉！首个高刷视频理解多模态模型全解析
北京内推 | Apple中国招聘机器学习/AI方向研究型实习生
一套框架搞定图像定制！IC-Custom统一「位置相关/无关」，万物迁移真落地
KDD 2025 | 从个股偏离到市场共振：UMI挖出股市非理性因子，显著提升预测精度
TPAMI | 数据增强还在“盲操”？南大提出IPF-RDA，让模型训练告别信息丢失
SilentStriker：无声击溃大模型
小米 17 系列手机官宣 9 月 25 日发布；iPhone 17 标准款需求超预期，苹果已增产；罗永浩再回应债务问题：个人债务五年前就还完了，后面是主动还的公司债务｜极客早知道
比思维链准43%！逻辑脑+大模型直觉，推理可靠性大幅提升
陶哲轩官宣AI数学基金首轮名单：29个项目瓜分1.3亿，数学界沸腾！
GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭
一手奶瓶一手键盘！新手宝妈产假氛围编程，自研实用家庭App
刚刚，DeepSeek-V3.1「终极版」重磅发布！最大提升超36%，V4/R2还远吗？
为了千元机用户的「流畅权」，OPPO 为安卓换了个「引擎」
一年卖出 10 个亿，这是年轻人真正的「户外神器」
Teable 宣布完成数百万美元天使轮融资，让数据库「长出耳朵和手」
北京内推 | 智源研究院多模态交互研究中心招聘多模态/具身智能方向研究型实习生
RLHF要下岗？Meta × 牛津搞出新套路：用算力教算力，大模型训练新范式来了！
Lumos-1登场！自回归 + 离散扩散合体：让大模型真正“构造”动态世界！
博士申请 | 复旦大学魏龙老师课题组招收AI4Science方向博士/硕士/RA/实习生
不到两千块，我拍到了专业级别的月全食｜New Things
苹果发布Manzano：一种简单可扩展的统一多模态大模型，其混合视觉Tokenizer统一了理解与生成任务，性能SOTA
博后年薪40万到90万 | 东方理工朱文韬课题组招聘AI方向博士后、研究助理教授、访问学生、实习生
字节跳动SAIL-VL2登顶OpenCompass，开源高效多模态新标杆
黄仁勋出手，50 亿美元入股英特尔，英伟达一统「GPU+x86」生态
巴菲特清仓比亚迪，期间股价上涨 38 倍；苹果折叠屏手机细节曝光；雷军年度演讲定档 9 月 25 日
刚刚，Gemini「灵魂人物」官宣加盟xAI！马斯克火速转推背书
靠10万+粉丝，北漂插画师秒贷款！华为全栈AI加速，让银行及时看见
醒醒，LLM根本没有性格！加州理工华人揭开AI人格幻觉真相
哈佛大佬都哭了！H-1B签证飙至10万刀，微软谷歌连夜召回全球员工
马斯克xAI百天血战，100天狂招100人！联创实权被削，豪言干掉微软
全球双榜SOTA！明略科技专有大模型 Mano开启GUI智能操作新时代
谷歌Gemini IMO和ICPC夺金功臣之一被xAI挖走，马斯克直呼：起飞
工业级3D世界构建提速90倍！全新框架LatticeWorld让虚拟世界「一句话成真」
集合通信库VCCL释放GPU极致算力，创智、基流、智谱、联通、北航、清华、东南重磅开源
【招生招聘】阿卜杜拉国王科技大学孟彦达博士组全奖博士、博后、实习、交流生
告别视频“抽帧”理解，美国东北大学新算法GRT算法实现高效可扩展的高帧率密集视频理解
iPhone17 卖爆，官网发货延至双 11；比亚迪仰望 U9 赛道版开启预定；网友玩坏 iPhone「舌头刷抖音」
「逆龄大脑药」首次人体试验！奥特曼押注RTR242，返老还童将要成真？
终结CMU霸权，清华首次登顶CSRankings世界第一！北大AI领域夺冠
大模型训练新突破！Meta提出LSP：无数据也能实现能力飞升
OpenAI最新硬件2026年底亮相！狂挖苹果20+老将，首款神秘设备或将颠覆iPhone
小扎AI眼镜当场死机，CTO自曝灾难级演示内幕：一个指令干趴自家服务器
当大厂「卷」Agent，腾讯选择「下产线」
陈天桥旗下AI公司MiroMind打造全球顶尖预测型大模型，性能登顶行业基准
OpenAI从苹果挖了20多人搞硬件，知情人士：苹果创新缓慢、官僚主义令人厌倦
Mini-Omni-Reasoner：实时推理，定义下一代端到端对话模型
TPAMI 2025 | DiffMVS/CasDiffMVS：一种置信度感知的扩散模型，实现轻量且准确的多视图立体三维重建
北大等提出BEVUDA++，首次解决BEV感知跨域难题，夜间检测性能提升12.9%
iPhone 17 Pro 首日即现划痕；传 OpenAI 联手立讯做 AI 硬件；2025 年搞笑诺贝尔出炉
史上最大升级！7亿周活ChatGPT逼宫，谷歌慌了，这次要把AI整个塞进Chrome
谷歌AI或摘千禧年大奖！华人博士破解百年数学难题，首次捕获奇点
登顶多模态推理榜MMMU！UCSD新方法超越GPT-5、Gemini
DeepSeek-R1登顶Nature，8位专家严审通过，大模型「交卷时刻」来了
18岁天才少年，登上Nature封面！
ICML 2025 | 乱写Prompt更给力？删几个Token，上下文学习立刻“反向觉醒”
北京内推 | 腾讯混元大模型X团队招聘大模型/强化学习方向“青云计划”实习生
扩散大语言模型也能飞？DPad免训练加速61倍，全局规划照样稳
不要ViT也不要扩散！OneCAT甩掉编码器，统一多模态自回归模型来了
华为超节点：用「一台机器」的逻辑，驱动AI万卡集群
5555被拒稿，AC接收但PC强拒，NeurIPS揭榜引争议
超强开源模型Qwen3、DeepSeek-V3.1，都被云计算一哥「收」了
攻克大模型训推差异难题，蚂蚁开源新一代推理模型Ring-flash-2.0
给大模型「精准手术」：美团智能客服提出逆向学习技术精准纠偏，风险控制提升38%
Meta新作SyncSeal：用深度学习“封印”同步信息，让数字水印不再怕裁剪和旋转
阿联酋大学CVLab IEEE Fellow团队招收2026春季/秋季全奖博士生
千禧年大奖难题有望突破？AI为流体动力学提供新思路
生物学迎来「ChatGPT时刻」：Evo构建首个AI生成的「基因组」，开启生成式基因设计时代
英伟达50亿美元入股英特尔，将发布CPU+GPU合体芯片，大结局来了？
理解帮助生成？RecA自监督训练让统一多模态模型直升SOTA
投50亿美元，英伟达联手英特尔；谷歌将Gemini加入浏览器；网约车司机平均月入过万
GPT-5攻入数学圈，证明定理快过博士生？网友热议AI新角色
阿里王牌Agent横扫SOTA，全栈开源力压OpenAI！博士级难题一键搞定
ChatGPT负责人深度复盘，爆4o复活内幕！过快下线是失误，将迭代模型人格
全球首个AI基因组诞生，35亿年生命代码重编程！生物学迎「ChatGPT时刻」
芯片大地震，黄仁勋355亿入股！英特尔要为老黄造CPU，股价狂飙30%
新思科技中国30周年，引领AI智能体工程师重塑芯片设计范式
科大讯飞发布面向东盟的多语言大模型及系列产品，布局中国—东盟AI生态大未来
Nature | 20年后你会患上哪些疾病？AI准确预测超1000种疾病患病风险，助力预防
我们还是低估了英伟达
北京内推 | 字节跳动国际电商团队招聘大模型方向算法实习生
少样本不够看？给LLM装上“学习引擎”，上下文学习迈入千样本时代
ICCV 2025 | Gap即力量！挖掘模态间隔潜力，MG-CLIP实现持续学习SOTA
谁在拖慢你的RL？别怪显卡，错的可能是你的PG-loss
OneSearch，揭开快手电商搜索「一步到位」的秘技
17.38 万的大六座 SUV，吉利用银河 M9 敲碎了友商的心
刚刚，OpenAI在ICPC 2025编程赛上满分登顶，Gemini也达到金牌水平
从一个公众号智能体说起：好用的Agent，究竟需要什么?
B站出海的强有力支柱：最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代
腾讯企点营销云发布Magic Agent，营销工具全面AI化
带屏 AI 眼镜登场！Meta「眼镜全家桶」炸街了
通义DeepResearch震撼发布！性能比肩OpenAI，模型、框架、方案完全开源
让机器人「不只是走路」，Nav-R1引领带推理的导航新时代
刚刚，DeepSeek-R1论文登上Nature封面，通讯作者梁文锋
腾讯 AI 的新叙事
传小米 YU7 新车型曝光纽北；李飞飞放出 3D AI 新成果； 49.2%，火山引擎大模型调用份额占半壁江山
小扎豪掷143亿，却换不来AI燃料！数据之争下半场，中国冲出一匹黑马
终结数据荒！智源开源首个Deep Research数据合成框架InfoSeek
我用一张照片，生成了一个能走进去的世界
奥特曼爆料：GPT-5重构彻底一切！一人顶五个团队
最新实测GPT-5-Codex：前端能力碾压，复杂项目轻松搞定，Claude可以扔了!
南开大学等提出RAM++：从关注“降质”到关注“内容”，实现鲁棒的全能图像恢复
TPAMI 2025 | 弱监督与自监督引领自动驾驶运动预测新范式，用场景分割“脑补”运动，仅需0.01%标注，性能媲美监督方法
博士申请 | 新加坡国立大学CoSTA Lab招收人工智能全奖博士/RA/实习生
不改参数不重训！CARVE一招纠偏，对比注意力让视觉模型精准聚焦
ICML 2025 | AI福尔摩斯来了！LLaVA-ReID多轮发问，行人重识别一步步锁定
清华新作颠覆CoT！ParaThinker并行思考，终结单链推理天花板
没想到，音频大模型开源最彻底的，居然是小红书
6.1B打平40B Dense模型，蚂蚁开源最新MoE模型Ling-flash-2.0
「AI助手」真来了？谷歌牵头推进Agent支付协议AP2
腾讯AI Lab首创RL框架Parallel-R1，教大模型学会「并行思维」
阿里开源通义DeepResearch，性能超OpenAI、DeepSeek旗舰模型
华为发布4+10+N中小企业智能化方案，打通迈向智能世界「最后一公里」
LLM开源2.0大洗牌：60个出局，39个上桌，AI Coding疯魔，TensorFlow已死
Cell丨谷歌AI co-scientist联合帝国理工揭开谜团：提出并验证细菌基因转移机制假说
华为首款旅行车 1 小时订单破 5000，余承东再次「封神」？
腾讯、复旦、上海创智学院提出SwiftVideo：首个Continuous-time视频蒸馏加速框架，实现业界最快最高清视频生成
刚刚，李飞飞空间智能新成果震撼问世！3D世界生成进入「无限探索」时代
突破单链思考上限，清华团队提出原生「并行思考」scale范式
刘强东喊话王兴：尊重兴哥，不应是仇人；美机器人公司估值暴涨至390亿美元；iOS 微信支持聊天发实况图｜极客早知道

Yann LeCun团队新作LLM-JEPA：结合联合嵌入预测架构，显著提升大模型微调性能与效率，在代码生成任务上表现卓越

2025-09-23未知作者来源

CV君 2025-09-23 16:09 江苏

当前，大型语言模型（LLM）的训练和微调几乎完全依赖于“下一个词元预测”（Next Token Prediction）这一自回归的生成式任务。然而，在计算机视觉领域，一个名为 联合嵌入预测架构（Joint Embedding Predictive Architectures, JEPA） 的非生成式、在嵌入空间进行预测的自监督学习范式，已被证明在学习表征方面远优于像素级的生成式方法。这一现象引出了一个关键问题：语言模型的训练能否从视觉表征学习中借鉴成功经验？

来自Atlassian、纽约大学（NYU）和布朗大学的研究者们（包括图灵奖得主Yann LeCun）首次成功地将JEPA的思想应用于LLM的训练，提出了 LLM-JEPA。该方法通过在标准LLM损失的基础上，增加一个JEPA风格的预测损失，显著提升了模型在多种任务和多种模型架构上的性能，并且表现出强大的抗过拟合能力。在参数高效微调（如LoRA）场景下，LLM-JEPA甚至能用少量可训练参数达到全量微调的效果。

论文标题：LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures
作者：Hai Huang (Atlassian), Yann LeCun (纽约大学), Randall Balestriero (布朗大学)
论文地址：https://arxiv.org/abs/2409.14252
代码仓库：https://github.com/rbalestr-lab/llm-jepa

研究背景与意义

当前，大语言模型（LLM）的训练、微调和评估主要依赖于输入空间（input-space）的重建，即通过“下一个词元预测”（Next Token Prediction）来学习。然而，在计算机视觉领域，研究者们发现，在嵌入空间（embedding-space）中进行学习的目标，例如联合嵌入预测架构（Joint Embedding Predictive Architectures, JEPA），其性能远超输入空间的对应方法。

JEPA的核心思想是，通过预测一个数据样本在嵌入空间中的不同“视角”（view）下的表征，来学习数据的抽象语义信息，而不是去像素级地重建图像。这种方法可以学习到更鲁棒、更具泛化能力的特征。

那么，语言模型能否借鉴视觉领域的成功经验呢？这篇论文的作者们迈出了探索的第一步，他们设计了一种适用于LLM的JEPA方案，命名为 LLM-JEPA ，旨在不牺牲LLM生成能力的前提下，提升其抽象推理和表征学习的能力。

LLM-JEPA：核心方法

LLM-JEPA的核心在于将传统的LLM损失（基于下一个词元预测）与JEPA损失相结合。作者巧妙地利用了自然语言任务中天然存在的“多视角”数据。

例如，在“自然语言转正则表达式”或“自然语言转SQL”等任务中，“自然语言描述”（Text）和对应的“代码”（Code）可以被看作是同一底层逻辑的两个不同视角。

上图直观展示了这种多视角思想。左侧是LLM-JEPA的通用框架，模型学习从Text的嵌入表示来预测Code的嵌入表示。右侧则是两个具体的数据集示例：NL-RX-SYNTH（自然语言到正则表达式）和Spider（自然语言到SQL）。

LLM-JEPA的整体损失函数如下：

其中：

Loss_LLLM 是标准的自回归下一个词元预测损失，用于保持模型的生成能力。
d(...) 是JEPA损失，它计算“从Text视角预测出的Code嵌入”与“真实的Code嵌入”之间的距离（如余弦相似度）。
γ 和 λ 是平衡两个损失项的超参数。

通过最小化这个联合损失，LLM-JEPA不仅学习生成流畅的文本，更学习理解Text和Code之间更深层次的语义关联。

实验设计与结果分析

作者在一系列模型（Llama3, Gemma2, OpenELM, OLMo）和数据集（NL-RX-SYNTH, Spider, GSM8K等）上进行了广泛的实验，结果令人振奋。

全量微调性能显著提升

如下图所示，无论是在哪个模型或数据集上，LLM-JEPA（绿色柱）的微调性能都显著优于基线方法（蓝色柱）。

具体的，在NL-RX-SYNTH数据集上，使用LLM-JEPA微调的Llama-3.2-1B-Instruct模型准确率达到了 71.46% ，远高于基线方法的57.29%。在其他模型如gemma-2-2b-it和OpenELM-1_1B-Instruct上也观察到了类似的巨大性能提升。

LoRA微调：更少参数，更好效果

在参数高效的LoRA微调场景下，LLM-JEPA的优势更加明显。实验表明，使用LLM-JEPA进行LoRA微调，不仅收敛更快，而且能用更少的可训练参数达到甚至超越全量微调的效果。

如下表所示，当LoRA rank为512时（仅占总参数的22.59%），LLM-JEPA的准确率达到了 72.41% ，与全量微调的基线模型性能相当（57.29%），甚至超过了全量微调的LLM-JEPA（70.42%）。这展示了其在高效微调方面的巨大潜力。

此外，LLM-JEPA在LoRA微调中表现出更强的抗过拟合能力。如下图所示，当基线方法开始过拟合时，LLM-JEPA的性能仍在持续提升。

预训练阶段同样有效

作者还探索了在预训练阶段就引入LLM-JEPA。结果显示，经过LLM-JEPA预训练的模型，在下游任务上进行微调时，也能获得比标准预训练模型更好的性能。这证明了JEPA目标在学习通用语言表征方面的价值。

为什么LLM-JEPA有效？

作者通过损失分析发现，性能的提升主要归功于JEPA损失项。如下图所示，基线方法和LLM-JEPA的下一个词元预测损失（LLLM loss）非常接近，但LLM-JEPA通过最小化预测损失（pred loss），学习到了更好的表征，从而带来了巨大的准确率差距。

进一步的分析表明，LLM-JEPA促使模型学习到了从Text嵌入到Code嵌入的近似线性变换。这说明模型捕捉到了两个视角之间内在的、结构化的语义关系。

生成样例对比

从生成的正则表达式样例中可以直观地看到，LLM-JEPA（ours）生成的代码更准确、更简洁，错误更少。

总结与贡献

这篇论文做出了以下关键贡献：

首次提出LLM-JEPA：成功地将JEPA思想应用于大语言模型，提出了一种新的、有效的训练目标。
显著提升SOTA性能：在多种模型和任务上，尤其是在代码生成等需要深度语义理解的任务上，显著超越了传统的微调方法。
提升微调效率：证明了LLM-JEPA在LoRA等参数高效微调方法上具有巨大优势，能够以更低的成本达到更高的性能。
开源贡献：作者开源了代码，为社区进一步研究和应用该方法提供了宝贵的资源。

总而言之，LLM-JEPA为提升大语言模型的表征学习能力和微调效率开辟了一条新的、充满希望的道路。它成功地在语言和视觉这两个看似不同的领域之间架起了一座桥梁，展示了跨领域思想借鉴的巨大潜力。CV君认为，这项工作对于未来如何构建更强大、更高效的LLM具有重要的启发意义。

了解最新 AI 进展，欢迎关注公众号:我爱计算机视觉感谢点赞支持。

阅读原文

跳转微信打开