动态列表

  • 机器人顶会RSS 2025奖项公布!大牛Pieter Abbeel领衔研究获杰出Demo奖
  • 8B模型可以超过GPT-4o!并行KV Cache压缩支持的128K长度外推方法ParallelComp
  • 让多模态大模型「想明白再画」!港大等开源GoT-R1:强化学习解锁视觉生成推理新范式
  • 亚马逊云科技中国峰会召开,解码Agentic AI时代企业加速创新路径
  • 通用生物医学Agent,可由「任务」自主生成「工作流」,斯坦福、基因泰克等开发Biomni
  • 视频中开放世界目标计数:牛津大学VGG提出并开源CountVid模型及VideoCounT数据集
  • 重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练
  • 提示词工程、RAG之后,LangChain:上下文工程开始火了!
  • ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯
  • 具身智能的终极命题:是造「人」还是造「生产力」?
  • 刚刚,首个能在机器人上本地运行的具身Gemini来了
  • 如何做到在手机上实时跑3D真人数字人?MNN-TaoAvatar开源了!
  • 雷军:YU7 不是拉高版 SU7;字节跳动辞退原豆包大模型负责人;美法院裁定使用版权内容训练 AI 合法 | 极客早知道
  • 任务太难,连ChatGPT都弃了!最强AI神器一键拆解,首测来袭
  • 合成数据>人工数据,绝对性能暴涨超10个点!仅需任务定义,高效微调大模型
  • 65亿「偷」来一个耳塞?OpenAI首款硬件被曝抄袭,苹果天才设计师翻车
  • 比修驴蹄还魔性!谷歌这7段纸片动画,看完焦虑没了,第2支直接封神
  • 讲得了课、押得中题、学习规划还能量身定制,真卷到点子上的只有它
  • Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?
  • ToMAP:赋予大模型「读心术」,打造更聪明的AI说服者
  • 众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基
  • 清华等开源YOLOv13:基于超图增强的实时目标检测
  • 外国小哥徒手改装消费级5090,一举击败巨无霸RTX Pro 6000
  • 强化学习新发现:无需数学样本,仅游戏训练AI推理大增
  • ACL 2025 | 让小说角色 「活」起来!复旦BookWorld打造沉浸式小说世界模拟系统
  • 千里科技公布面向L3级、L4级别智驾方案全景路线图
  • 准确率72.46%!中南大学团队提出多源相似性融合模型MSSF,精准预测药物副作用频率
  • AI识别引起复杂疾病的关键基因组合,有望带来治疗新途径
  • AI 上新|3 秒钟,我用 YouWare,手搓了一个「Win98 版」极客公园
  • 立体几何难倒大模型!SolidGeo:首个多模态立体几何推理基准
  • 报名开启!别再一个人刷论文了,来ACL 2025论文分享会一起面对面交流
  • 3D VLA新范式!中科院&字节Seed提出BridgeVLA,斩获CVPR 2025 workshop冠军!
  • 雷军:将发布面向下一个时代的智能设备;特斯拉无人出租车安全问题引发关注;微信新版语音界面「丑」上热搜 | 极客早知道
  • 推理正确率下降65.5%!斯坦福、MIT等用「不等式」拷问AI逻辑极限
  • 奥特曼YC硬核访谈:走ChatGPT之路必死,世界差点没有OpenAI!
  • 28岁辍学生掌舵Meta超级AI!小扎掷千亿,与奥特曼密谋,新「王」登顶
  • 哈佛重磅预警!经济学家预言:全球AI失业潮2年来袭,世界经济大崩盘在即
  • 我在哪?要去哪?要怎么去?字节跳动提出Astra双模型架构助力机器人自由导航
  • 有道14B低成本轻量模型“子曰3”开源,数学推理性能超越大模型
  • 特斯拉 Robotaxi 上路,定向邀请、30 元一次,有钱也体验不上
  • 无损减少80%激活值内存,提升5倍训练序列长度,仅需两行代码
  • AI真的需要「像人类」那样思考吗?AlphaOne揭示属于大模型的「思考之道」
  • 非夕科技完成C轮亿级美元融资,通用机器人商业化进入加速期
  • 等了十年,特斯拉Robotaxi终于上线!马斯克:仅需4.2美元一口价
  • 新鲜出炉!斯坦福2025 CS336课程全公开:从零开始搓大模型
  • CVPR 2025 Award Candidate | 英伟达等Difix3D+:用单步扩散模型修复 3D 重建伪影
  • 「幻觉」可助力科研?LLM发现了治疗癌症的新药
  • 分子「去毒」VQA上线:测测你的多模态大模型是不是个合格的「绝命毒师」?
  • AI模型如何解析和控制大脑?「数字孪生」大脑也许不是伪命题
  • 腾讯云开发CloudBase上线AI Builder,成为国内首个全链路AI开发平台
  • 多家机构预测小米 YU7 定价 25 万元左右;美媒揭秘 1999 美元的「美国制造」手机;特斯拉 Robotaxi 正式上线
  • 苹果密谋300亿美元天价收购Perplexity,小扎狂挖印度裔CEO!
  • 英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了
  • 全网骂他AI作弊狗,硅谷风投反手砸1.2亿!这届VC就爱疯批创业者
  • CS博士求职8个月0 offer,绝望转行!斯坦福入学停滞,全美仅增0.2%
  • 海螺新模型海外爆火:一夜之间,猫、羊驼、长颈鹿都学会跳水了
  • 大模型到底是怎么「思考」的?第一篇系统性综述SAE的文章来了
  • Sam Altman提醒创业者:ChatGPT将来要做的,大家就绕开吧
  • 从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
  • 开源版MetaQuery来了!OpenUni用1.1B参数媲美BLIP3-o-8B,数据代码完全开源
  • 大模型为何难成为「数学家」?斯坦福等揭示严谨证明中的结构性弱点
  • 小米:YU7 将发,严禁诋毁竞品;罗永浩剧透 AI 产品 3 个月后见;贝佐斯「二婚婚礼」下周举办
  • Claude要挟人类只为活命!16大模型实测:受到威胁,敲诈勒索绝不犹豫
  • OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
  • 假老罗打败真老罗?618一夜爆卖5500万!真相揭穿网友傻眼
  • 知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」
  • 月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA
  • 三个大模型合作,1000次迭代,竟能像人类科学家一样发现方程
  • 世界模型版《模拟人生》:AI虚拟小人街头演讲拉票,GPT-4o选举获胜
  • 外媒:苹果内部讨论买Perplexity,140亿美元史上最大收购?
  • ICML 2025 Oral | NAS老树开新花,NUS提出智能体超网,成本狂降55%
  • 舍弃CUDA编程!CMU等用几十行代码将LLM编译成巨型内核,推理延迟可降6.7倍
  • 7B智能体仅凭9个任务训练即超越R1!上交大打造AI-for-AI新范式
  • 「悄悄发育」的华为 AI,这次放了个「大招」
  • 一文看尽字节跳动2025重磅AI开源成果:从图像生成到智能体系统
  • 传苹果考虑收购 Perplexity,恶补 AI;微信测朋友圈评论表情包回复;Meta 推出新智能眼镜,2900 元起
  • 首个「万亿级时间点」预训练,清华发布生成式时序大模型日晷 | ICML Oral
  • 开价10亿,小扎挖角Ilya左右手!前GitHub CEO或加盟Meta AI梦之队
  • 史诗级预言!Karpathy演讲刷屏:软件3.0,人人皆「代码之神」
  • 刚刚,华为盘古大模型5.5问世!推理、智能体能力大爆发
  • 突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%
  • Agentic AI时刻!多智能体驱动,「一人公司」这就要来了
  • 老罗数字人刷屏背后,AI导演正偷偷改写直播「剧本」
  • SIGGRAPH 2025|Large Avatar Model:单图秒级打造超写实3D交互数字人,跨平台超实时驱动渲染
  • 打破推荐系统「信息孤岛」!中科大与华为提出首个生成式多阶段统一框架,性能全面超越 SOTA
  • vivago2.0(智小象AI)让创作门槛归零,人人都是 “全能创作人”
  • 准确率70.14%,多模态数据Transformer模型预测药物相互作用,使多药同服更安全
  • 跨越1.6亿年进化分歧,DNA语言模型以单核苷酸分辨率对植物基因组跨物种建模
  • MLLM做数学题也会“走神”?南大&腾讯提出TVC,根治多模态长链推理的“视觉遗忘症”
  • 通杀主流LLM!用知识图谱“撬开”大模型安全门,黑盒越狱新范式HBS-KGLLM发布
  • NeurIPS 2024 | 感知理解生成三合一!TextHarmony定义OCR多任务统一新范式
  • 北京内推 | 字节跳动地理位置中台招聘地理位置方向算法实习生
  • 天工不止造物,也能修bug:Skywork-SWE给代码智能体补上软件工程课
  • Andrej Karpathy最新演讲爆火!人类已进入「说话就能编程」的软件3.0时代
  • OCR场景推理评测迎来重大革新!系统性推理基准OCR-Reasoning发布
  • 人人皆可创作音乐!腾讯AI Lab开源音乐生成大模型SongGeneration
  • 微信上线「短剧」小程序;传宇树C 轮融资估值超 100 亿,腾讯阿里吉利联投;OpenAI 警告:高生物武器风险模型将出现
  • AI写爆款博客火出圈,主笔竟是Claude!
  • 每帧Sora级震撼!Midjourney首个视频模型登场,超逼真大片首测来袭
  • 惊天丑闻!OpenAI档案曝光,奥特曼捏造YC董事长身份,虚伪真面目被揭穿
  • MonkeyOCR:华科开源高效文档解析模型,精度超越闭源大模型、速度还更快!
  • 推荐大模型来了?OneRec论文解读:端到端训练如何同时吃掉效果与成本
  • 何恺明CVPR最新讲座PPT上线:走向端到端生成建模
  • DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究
  • 一句话管理上千台服务器,合合信息开源业内首个AI Agent云资源智能管理终端
  • 刘强东宣布发力稳定币,大厂找到了「新金矿」
  • AI 上新|打通了 AI,这个 App 让我的 Mac「快到飞起」!
  • ​酒店管理进入 AI 时代?这个模型或许是第一步
  • AI 工具分析血液 DNA 片段,实现更快、更经济的癌症监测
  • Nature子刊,阿里云等开发首个「中心法则」生物大模型,参数1.8B,涵盖16.9W物种
  • 碾压DeepSeek推理4倍!MiniMax M1百万token长文屠榜,开源登顶全球前二
  • ACL 2025 | 大模型“以讹传讹”?DRAG双阶段「多代理辩论」破解幻觉叠加问题
  • 训练无关、即插即用!北大DyFo刷新视觉搜索能力,解锁MLLM细粒度理解新高度
  • 杭州/北京内推 | 阿里虎鲸文娱搜索QP团队招聘大模型算法实习生
  • 27、42、73,DeepSeek这些大模型竟都喜欢这些数!为什么?
  • 单应计算加速数十倍、计算量减少95%!基于几何的SKS和ACA矩阵分解被提出
  • 77万人围观的吉卜力风「游戏」视频,我们用3个国产AI整出来了(含提示词)
  • 数据减少超千倍,500 美金就可训练一流视频模型,港城、华为Pusa来了
  • Altman:GPT-5 夏天发布;小米曝光平板等多款新品;AI 玩「宝可梦」会恐慌,甚至试图自杀|极客早知道

继VAE之后,Adam也拿到了ICLR 时间检验奖,OpenAI联创两次获奖

刚刚,ICLR 2025 宣布了今年的时间检验奖获奖论文。这个奖项旨在表彰十年前在 ICLR 2015 上发表的对该领域产生持久影响的论文。

图片

经久不衰的「Adam 算法」拿到了冠军,比 Transformer 论文更早引入注意力机制的「Neural Machine Translation by Jointly Learning to Align and Translate」拿到了亚军。这样的结果可谓「实至名归」。

Adam:深度学习领域应用最广泛的优化算法之一

Adam 算法,即 Adaptive Moment Estimation 算法,是一种结合了动量法和 RMSprop 算法思想的自适应学习率优化算法。

Adam 革命性地改变了神经网络训练,在各种架构和任务中实现了显著更快的收敛速度和更稳定的训练过程。如今,它已经成为深度学习中最广泛采用的优化算法之一。

Adam 算法的创新之处在于,它结合了 AdaGrad 和 RMSProp 的优点,通过维护第一矩估计(均值)和第二矩估计(未中心化的方差)来动态调整每个参数的学习率,能够处理稀疏梯度和非平稳目标函数。

它的重要性体现在其广泛的应用场景,无论是计算机视觉、自然语言处理还是强化学习等领域,Adam 算法都为模型的高效训练提供了有力支持,极大地提高了模型的训练效率和性能,成为无数最先进模型的默认优化器。

根据 Google Scholar 的数据,Adam 论文的被引量已经超过 21 万。

图片

论文链接:https://arxiv.org/abs/1412.6980 

该论文总共有两位作者 ——Diederik P. Kingma 和 Jimmy Lei Ba。

Diederik P. Kingma 是一位计算机科学家和研究员,专注于机器学习和生成式建模的可扩展方法。他的重要贡献包括变分自编码器(VAE)、Adam 优化器、Glow 和变分扩散模型。其中,VAE 获得了去年的 ICLR 时间检验奖。所以,这次是 Diederik P. Kingma 第二次获得该奖项。而截至目前,该奖项总共就颁了两次。

2017 年,他以优异成绩获得阿姆斯特丹大学博士学位。2015 年,他作为创始团队成员参与创建了 OpenAI。在此之前,他共同创立了 Advanza 公司,该公司于 2016 年被收购。

他的职业生涯包括:

  • 2009 年和 2012 年:在纽约大学 Yann LeCun 实验室担任初级研究科学家;

  • 2010-2012 年:Advanza 联合创始人兼技术负责人,公司于 2016 年成功退出;

  • 2013-2017 年:在阿姆斯特丹大学攻读博士学位,导师为 Max Welling,研究领域为深度学习和生成模型;

  • 2015-2018 年:OpenAI 创始团队成员和研究科学家,领导算法团队,专注于基础研究;

  • 2018-2024 年:在 Google Brain/DeepMind 担任研究科学家,领导多个研究项目,主要是文本、图像和视频的生成模型;

  • 2024 年至今:在 Anthropic 研究大规模机器学习。

图片

另一位作者多伦多大学 Jimmy Lei Ba 现在是多伦多大学的助理教授。他的长期研究目标是解决一个计算问题:如何构建具有人类效率和适应性的通用问题解决机器。他的研究兴趣主要集中在开发高效的深度神经网络学习算法上。他的研究领域与 NeurIPS、ICLR 和 ICML 等研究社区有交叉。此外,他对强化学习、自然语言处理和人工智能也有广泛的兴趣。

Jimmy Lei Ba 在 Geoffrey Hinton 的指导下完成了博士学位。他的硕士(2014 年)和本科学位(2011 年)均在多伦多大学获得,师从 Brendan Frey 和 Ruslan Salakhutdinov。他是 CIFAR AI chair,曾在 2016 年获得 Facebook 机器学习研究生奖学金。

图片

亚军论文   比 Transformer 提前三年引入注意力机制

获得 ICLR 时间检验奖亚军的论文「Neural Machine Translation by Jointly Learning to Align and Translate」同样来头不小,图灵奖得主 Yoshua Bengio 是该论文的作者之一。

图片

论文链接:https://arxiv.org/abs/1409.0473

去年 12 月,AI 大牛 Andrej Karpathy 专门发帖为这篇论文鸣不平,称它是「真正引入注意力机制的论文」,但受到的关注远远不及三年后才出现的 Transformer 论文。

图片
图片

具体来说,这篇论文的创新之处在于,它引入了一种注意力形式,从根本上改变了序列到序列模型处理信息的方式。在此之前,编码器 - 解码器架构通常将整个输入序列压缩为固定长度的向量,从而为较长的序列造成内存瓶颈。该方法使模型能够在翻译过程中动态地「关注」源句子的不同部分,从而处理相关的上下文信息。这种注意力机制已经成为现代深度学习的基石,远远超出了机器翻译的范畴,形成了 transformer 和大型语言模型的基础。这篇论文的实际影响是巨大的,使其成为对神经网络架构最有影响力的贡献之一。

这篇论文总共有三位作者:Dzmitry Bahdanau、Kyunghyun Cho 和 Yoshua Bengio

Dzmitry Bahdanau 在加拿大 Mila 研究所完成了博士学位,师从 Yoshua Bengio。他现在是一位在 ServiceNow 旗下(前 Element AI)工作的研究科学家。他同时也是 Mila 的核心产业成员和麦吉尔大学的兼职教授。

Dzmitry Bahdanau 坚信人类语言技术(HLT,他认为这是比 NLP 更好的称呼)将改变人类与软件交互和获取知识的方式。事实上,这种改变已经开始发生(比如网络搜索),但这仅仅是个开始。Bahdanau 对 HLT 技术栈各个层面的研究问题都有浓厚兴趣,包括深度学习基础、基础模型训练、特定任务算法(尤其是语义解析)以及用户与 AI 系统的交互体验。他近期正在进行的工作主要集中在语义解析和面向任务的对话方法、代码生成、神经模型的系统性(组合性)泛化和样本效率上。

图片

在发给 Karpathy 的邮件中,Dzmitry Bahdanau 曾详细谈过他们当年研究「注意力机制」的往事。

图片

他提到,「 我作为实习生来到 Yoshua 的实验室…… 我告诉 Yoshua 我愿意做任何工作。Yoshua 安排我参与机器翻译项目…… 有一天,我突然想到让解码器 RNN 学习在源序列中搜索放置游标的位置会很好。这有点受到翻译练习的启发,在中学学习英语时会用到这种练习。当你翻译时,目光在源序列和目标序列之间来回移动。我提出了对 BiRNN 状态进行软搜索作为 softmax 然后进行加权平均的想法。这个方法从一开始就表现出色,令人振奋 。我称这种架构为 RNNSearch,我们赶紧发布了一篇 arXiv 论文,因为我们知道 Ilya 和谷歌的同事们在他们强大的 8 个 GPU LSTM 模型(RNN Search 仍在 1 个 GPU 上运行)上领先于我们。事后证明,这个名称不太好。更好的名称(attention)是由 Yoshua 在最终定稿中添加的。」

另一位作者 Kyunghyun Cho 是纽约大学计算机科学和数据科学教授,同时担任 Genentech Research & Early Development (gRED) Prescient Design 团队的前沿研究执行总监。2025 年,他被任命为 Glen de Vries 健康统计学教授。在获奖论文写作期间,他曾在蒙特利尔大学担任博士后研究员,师从 Yoshua Bengio 教授。

图片

在 ICLR 时间检验奖颁发之际,或许我们也可以重读这些经典论文,从中找到关于未来方向的新启发。

参考链接:https://blog.iclr.cc/2025/04/14/announcing-the-test-of-time-award-winners-from-iclr-2015/

]]>

联系我们