动态列表

  • 4万亿刀,仅3.6万人!英伟达揭残酷真相:劳动正与财富大脱钩
  • 医疗AI智能体全面综述:行业爆发,年增长130%!
  • AI「看见」实验,哈佛颠覆性突破!一副AR眼镜,新手秒变资深专家
  • 震惊电影圈!好莱坞混了10年没出头,他把AI「烂片」做成23万粉爆款
  • Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
  • 谷歌 Gemini 3.0 深夜炸场:没有悬念的最强 AI
  • MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能
  • JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
  • 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
  • 阿里千问公测,挑战 ChaGPT;京东上线独立外卖 App;贝佐斯出任 AI 初创公司 CEO
  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道
  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售
  • AAAI 2026 Oral | 清华大学等提出SpatialActor:解耦空间感知,重度噪声下机器人操作鲁棒性暴涨19.4%
  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策
  • 全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考
  • OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
  • LeCun在Meta的「最后一作」
  • 视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源
  • 大疆 OSMO Action 6 体验:完美进化,不止运动
  • iOS 为微信小程序「正名」,腾讯移动生态的新转机
  • “全模态”3D视觉基础模型OmniVGGT出炉!即插即用任意几何模态,刷新3D视觉任务SOTA,赋能VLA模型
  • WACV 2026 | PALMS+:融合深度基础模型,手机室内导航的技术再突破
  • GPT 5.1 发布了,但西方媒体准备「讲好中国故事」
  • AI、游戏双驱动,腾讯「赚麻了」
  • 对话李彦宏:Chatbot 不是一切,我在 AI 上看到了更让人兴奋的未来
  • 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
  • ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
  • OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
  • 传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 |极客早知道
  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒
  • 奥特曼下注27岁神秘青年,「复活」世界最顶级实验室
  • AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
  • Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」
  • 少年沉迷AI自杀,9岁遭性暗示!这门「孤独生意」,正推孩子入深渊
  • ConsistEdit:重新定义AI视觉编辑,港科大、清华等机构提出MM-DiT注意力控制新方法
  • NeurIPS 2025 | 中科院携手快手发布LiveStar:首个“会说话、懂沉默”的直播AI,推理速度提升1.53倍
  • 双十一算力真敢卷!RTX 5090低至0.69元/时,同预算跑更多实验
  • AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”
  • 北京内推 | 阿里高德地图团队招聘大模型方向算法实习生(可长期/转正)
  • 对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
  • 深度复盘:大疆是如何成为影像领域新巨头的?
  • 传李想亲抓人事,华为系高管退出理想;Meta 首席 AI 科学家杨乐昆离职创业;AI 减肥或致饮食失调

Yann LeCun团队新作LeJEPA:仅一个超参数、50行代码,实现可证明、可扩展的自监督学习

CV君 2025-11-18 15:20 江苏

大道至简,LeJEPA能否引领自监督学习新浪潮?

大家好,今天想和大家聊一篇非常有趣的新工作,来自图灵奖得主Yann LeCun和他在Meta-FAIR及布朗大学的同事Randall Balestriero。这篇名为《LeJEPA》的论文,可以说是给当前的自监督学习(Self-Supervised Learning, SSL)领域带来了一股清流。

熟悉SSL的朋友们可能都有过被各种“祖传炼丹术”支配的恐惧:复杂的教师-学生网络、动量编码器、精心设计的负样本对、梯度停止(stop-gradient)等等。这些启发式技巧虽然在实践中有效,但往往缺乏坚实的理论支撑,让整个训练过程像是在“开盲盒”。而LeJEPA的目标,就是用坚实的理论和极简的设计,彻底告别这些“玄学”。

研究背景:JEPA与自监督学习的“痛点”

自监督学习的核心思想是让模型从数据自身中学习有用的表示(representation),而无需昂贵的人工标注。近年来,联合嵌入预测架构(Joint-Embedding Predictive Architectures, JEPA)成为一个很有前景的方向。它的理念很简单:在抽象的嵌入空间中,通过一个部分的上下文信息(context),去预测另一个部分的信息。

然而,JEPA框架有一个致命的“捷径”——表示坍塌(representation collapse)。模型可能会学到一个最简单的“躺平”策略,比如把所有输入都映射到同一个点或一个低维子空间上。为了避免这种情况,研究者们发明了各种复杂的技巧,比如对比学习(需要大量负样本)、知识蒸馏(需要非对称的教师-学生网络和动量更新)等。这些方法虽然有效,但也带来了超参数复杂、训练不稳定、实现繁琐等一系列新问题。

LeJEPA正是为了解决这些痛点而生。论文标题中的“Le”代表“Lean”,意为“精简”,其核心贡献就是为JEPA提供了一个坚实的理论基础,并在此基础上设计了一个极其简洁、可扩展且高效的训练目标。

LeJEPA的核心原理:理论与方法的双重突破

LeJEPA的优雅之处在于它从两个根本性问题出发,给出了漂亮的理论解答和工程实现。

理论突破:为什么是各向同性高斯分布?

第一个问题是:一个理想的、可用于各种下游任务的特征嵌入,应该服从什么样的分布?

论文通过严谨的数学推导(覆盖了线性和非线性下游任务),得出了一个惊人的结论:各向同性高斯分布(isotropic Gaussian distribution)是唯一的“最优解”

简单来说,一个“各向同性”的分布意味着特征在所有方向上都是均匀的,没有特定的偏好。这使得模型学习到的表示具有最大的灵活性和最小的偏差,从而在面对未知的下游任务时,能表现出最低的“最坏情况风险”。

上图直观地展示了各向同性(左)与各向异性(右)嵌入在分类任务中的区别。在多次采样训练后,各向同性嵌入得到的决策边界(紫色线)更加稳定,方差更小。

这个理论发现为自监督学习提供了一个清晰的优化目标:我们不仅要让模型做出准确的预测,还要约束它产生的特征嵌入尽可能地接近一个标准的各向同性高斯分布。

方法创新:SIGReg——优雅实现分布匹配

第二个问题是:如何在高维空间中,高效、可靠地约束嵌入向量去匹配一个目标分布(比如各向同性高斯分布)?

直接在高维空间计算两个分布的差异是非常困难且计算昂贵的,这就是所谓的“维度灾难”。为了解决这个问题,论文提出了一种名为“速写各向同性高斯正则化”(Sketched Isotropic Gaussian Regularization, SIGReg)的全新目标函数。

SIGReg的思路非常巧妙,它借鉴了Cramér-Wold定理的思想:如果两个高维分布在所有一维投影上的分布都相同,那么这两个高维分布本身就是相同的。SIGReg正是利用了这一点:

  1. 速写(Sketching):在每次训练迭代中,随机生成若干个(比如几百个)1D投影方向。

  2. 投影(Projection):将一批高维的嵌入向量,分别投影到这些1D方向上,得到若干组一维数据。

  3. 匹配(Matching):使用一个高效的统计检验方法(论文推荐了稳定且可微的Epps-Pulley检验),来计算这些一维数据与标准高斯分布之间的差异。

  4. 正则化(Regularization):将这个差异作为正则化项加入到总损失中,从而“督促”编码器生成的嵌入分布向各向同性高斯分布看齐。

SIGReg工作原理示意图:将编码器()产生的高维嵌入(中)投影到多个1D方向上(中,箭头),然后约束这些1D投影的分布(右,彩色线)去匹配标准高斯分布的1D投影(右,黑线)。

最终,LeJEPA的总损失函数非常简洁:

其中,是JEPA的预测损失,是SIGReg正则化项,而是唯一的权衡超参数。整个实现(除了模型和数据加载器)仅需约50行PyTorch代码,并且完全抛弃了stop-gradient、教师网络、动量编码器等所有启发式组件。

LeJEPA核心实现代码,可见其极致的简洁性。

实验结果:大道至简,性能不减

LeJEPA的简洁设计是否以牺牲性能为代价?实验结果给出了否定的答案。论文在超过10个数据集、60多种模型架构上进行了广泛验证,结果令人印象深刻。

训练稳定且损失函数具有指导意义

一个非常亮眼的发现是,LeJEPA的训练损失与下游任务的性能表现出了高达99%的斯皮尔曼相关性。这意味着训练损失越低,模型学到的表示质量就越好。这在以往的JEPA方法中是罕见的,它为无标签的模型选择和超参数调优提供了极其宝贵的信号,让我们终于可以摆脱“边训练边跑下游任务验证”的繁琐流程。

LeJEPA训练损失(经过简单缩放后)与下游任务准确率的Spearman相关性(y轴)可以达到接近99%,表明训练损失是模型质量的可靠指标。

性能强大,扩展性好

LeJEPA不仅稳定,性能也非常能打。例如,在ImageNet-1k上预训练后进行线性评估,一个ViT-H/14模型可以达到79%的Top-1准确率

更值得关注的是它在特定领域的表现。论文在一个名为Galaxy10的天文图像数据集上进行了实验,结果表明,使用LeJEPA进行领域内预训练的效果,显著优于使用在海量自然图像上预训练的DINOv2/v3等前沿“基础模型”进行迁移学习。这证明了当SSL框架足够简洁易用时,针对特定领域从头开始预训练是一个比通用模型迁移更优的选择。

在Galaxy10数据集上,使用LeJEPA进行领域内预训练(彩色线条)在不同数据量下均优于强大的DINOv2/v3迁移学习(灰色线条)。

此外,LeJEPA还自然地涌现出了丰富的语义表征能力,例如无需任何监督即可实现高质量的物体分割和跟踪。

LeJEPA学习到的特征自然地实现了对视频中物体的分割与跟踪。

总结

总而言之,LeJEPA为自监督学习领域提供了一个兼具理论深度和实践简洁性的优雅框架。它不仅揭示了理想嵌入空间的数学原理,还提供了一套摆脱“炼丹玄学”的实用工具。这种回归第一性原理的研究思路,或许能为AI的发展开辟一条更清晰、更可预测的道路。

你觉得这种极简的、理论驱动的范式会成为未来SSL的主流吗?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们