动态列表

  • 九天大模型大变身:性能狂飙35%!还能一键P大象
  • 万亿参数狂欢!一文刷爆2025年七大顶流大模型架构
  • 豪拒15亿美金天价Offer,硅谷最狂AI巨星身份曝光!小扎、奥特曼抢破头
  • 兔子蹦迪疯传,5亿观看!全球恐慌:一段AI视频把全人类拉入虚拟现场
  • 全网苦等GPT-5,超级对齐团队遗作成重要线索,奥特曼发话「惊喜很多」
  • GUI定位还在玩「非黑即白」?浙大团队提出GUI-G²,显著提升GUI智能体定位性能
  • OpenAI IMO金牌团队爆料:AI拒绝作答第六题
  • ​特斯拉车祸,被判赔偿超 2 亿美元;传 OpenAI 将推 10 美元「亲民订阅」;影石刘靖康:祝贺同行大疆推全景相机
  • GPT-5难产内幕曝光!核心团队遭挖空,推理魔咒难破,靠英伟达续命
  • 哥大学生全员AI作弊?小哥「创业逆袭」:不用AI等于输在起跑线!
  • Hinton预言成真,美国大学生掀起本科辍学潮!月入万刀修马桶,不怕AI裁员
  • 天才美少女的开挂人生,首次揭晓!11岁自学微积分,17岁推翻40年难题
  • GPT-5难产,外媒爆料:性能提升不大,OpenAI高管Slack上当众破防
  • 19岁小哥伯克利辍学创业,获2800万美元融资,OpenAI投了
  • 通向L3的正确范式?理想i8全球首发VLA高阶辅助驾驶,我们帮你试了试
  • ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法
  • 刚刚,谷歌「IMO金牌」模型上线Gemini,数学家第一时间证明猜想
  • 一个模型超了DeepSeek R1、V3,参数671B,成本不到350万美元
  • 多模态后训练反常识:长思维链SFT和RL的协同困境
  • 库克打气苹果 AI:不拼首创,自信能主导市场;微信提现手续费下调至 0.01 元;Manus 推 Wide Research
  • 微软破4万亿,被裁员工扎心!70级工程师天价薪酬曝光:入职大礼包2700万
  • 港科大发布「大模型越狱攻击」评估基准,覆盖37种、6大类别方法
  • 刚刚,OpenAI神秘开源模型泄露!「闪现」1分钟被删,配置被网友扒光
  • 24岁辍学博士,小扎捧2.5亿薪酬包亲自上门抢人!AI顶薪已让NBA汗颜
  • 奕派科技重磅发布“未来之翼”战略,2026款东风奕派eπ008限时先享价17.36万元
  • 一切竞争,都变成了「AI 竞争」
  • 途深智合推出旗下AI科研品牌--追梦AI
  • 模型共享、数据互通、设施互连,上海人工智能实验室上线「书生」科学发现平台
  • 一次中稿10篇ACL25,通义实验室 代码智能&对话智能团队 在研究什么
  • 联合三大蛋白质模型,仅需4~6周,定制癌细胞特效「识别器」
  • 全球首款通用AI科研智能体问世:我一个文科生用它写了份CRISPR基因编辑综述报告
  • 中国在AI领域超越美国已是板上钉钉?吴恩达:美国无法保持领先
  • 驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代
  • 思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型
  • 超聚变亮相WAIC 2025 重构数智化平台,共建智能体时代
  • Manus大升级,100多个智能体并发给你做任务
  • 挖人上瘾的Meta又被员工吐嘈:不帮忙宣传项目,开源只会越来越糟
  • 机器人不只会抓和放!北京大学X银河通用「世界-动作模型」赋能全面泛化的非抓握技能
  • 火山引擎作为「AI 原生」基础设施,变得更强了
  • 英伟达回应「芯片后门」:不存在后门;大疆推 Osmo 360 全景相机,2999元;微软成第二家 4 万亿美元公司
  • WAIC唯一指定C位,AI「国家队」又赢麻了!秒懂Hinton伦敦腔,现场杀疯老外狂点赞
  • 首部法律LLM全景综述发布!双重视角分类法、技术进展与伦理治理
  • 小扎一夜反水,背刺开源!亲手葬送「Llama神话」,股价大涨12%
  • GPT-5发布倒计时?全网泄露来了:微软Copilot憋大招,GPT-5上线最后冲刺!
  • 17.98 万的乐道 L90,有多少蔚来的诚意,就有多少李斌的「求生欲」
  • ACL'25最佳论文独家解读:大模型有「抗改造」基因,现有后训练范式失灵预警
  • 当提示词优化器学会进化,竟能胜过强化学习
  • ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法
  • 谷歌发布AlphaEarth基础模型:构建「地球版ChatGPT」,融合多源数据,实现10米级地球观测
  • 微软花重金做的Copilot,居然被WPS一个按钮给秒了?
  • 定义科学智能2.0:在WAIC,复旦与上智院的答案是开放协作、科学家为中心,以及一个「合作伙伴」
  • OpenAI提出的CLIP,被Meta联合谢赛宁、刘壮,扩展到全球300+语言
  • VLA-OS:NUS邵林团队探究机器人VLA做任务推理的秘密
  • XREAL One Pro 体验:AR 老炮的自我革命
  • WAIC UP! 之夜:一场关于AI与人类未来的星空思辨
  • AI 智能体,让每个人可以像科学家一样工作和思考
  • 刚刚,扎克伯格公开信:Meta不会开源全部模型
  • 没敲过代码的我,半小时「聊」出一个能用能分享的「小程序」
  • 把指纹焊死在频率上:抗微调神经网络指纹的硬核方案来了
  • 32.18万起!理想i8正面「硬刚」特斯拉Model X
  • 智能驾驶最大的障碍,不是懂车帝
  • 刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文
  • 小米青年公寓正式启用,1999 元/月;Meta AI 数据中心投入 720 亿美元;NBA 引入「AI 篮球」
  • AI百人榜刷屏,小扎照单全收?辛顿Ilya师徒霸榜,第二名竟是本科生
  • 炮轰黄仁勋,决裂奥特曼!1700亿美元估值背后,硅谷最不好惹的AI狂人
  • 别只盯着李飞飞!AI的「3D数据底座」已被这家中国公司悄悄建好
  • 无需准确传感信号!轻松搞定「多段软体机械臂」复杂位姿与形状控制
  • Nature 子刊 | DeepSeek落户超750家医院,清华团队剖析AI医疗监管隐忧
  • P图手残党有救了,豆包·图像编辑模型3.0上线,一个对话框搞定「增删改替」
  • 开出10亿美元天价,小扎挖人Mira创业公司惨遭拒:俺们不差钱
  • 当智能成为主要生产资料,硅基经济学引爆「AI+金融」
  • SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」
  • 刚刚,OpenAI推出学习模式,AI教师真来了,系统提示词已泄露
  • 凌晨,Qwen又更新了,3090就能跑,3B激活媲美GPT-4o
  • AI安全上,开源仍胜闭源,Meta、UCB防御LLM提示词注入攻击
  • 字节辟谣「豆包汽车」:无造车计划;英伟达市值突破4.3 万亿美元;传特斯拉将推「低价赛博皮卡」
  • 科学能力太强,这个多模态推理「六边形战士」被严重低估!Intern-S1开源登顶
  • 全球首次,「AI记忆」开源落地!MIRIX同步上线APP
  • GPT-5基准测试泄露,被曝两天后发布?打Minecraft震撼开挂网友直呼封神
  • 马斯克偷偷憋了个大招!Grok秒出《阿凡达》画质,好莱坞瑟瑟发抖?
  • 理想i8正式发布:首款纯电SUV,售价32.18万元起
  • WAIC 2025大黑马,一个「谢耳朵AI」如何用分子式超越Grok-4
  • 通义实验室大火的 WebAgent 续作:全开源模型方案超过GPT4.1 , 收获开源SOTA
  • 这家国内公司,在给具身智能技术栈做「通解」
  • ACL首届博士论文奖公布,华人学者李曼玲获荣誉提名
  • 全球首个全链式空间天气AI预报模型“风宇”!国家卫星气象中心牵头,联合南昌大学、华为共同研发
  • LeCun出手,造出视频世界模型,挑战英伟达COSMOS
  • 联合十余家国产生态,商汤大装置发布“算力Mall”,打造算力超级市场
  • 用说的就能做 App,这家公司想做 AI 时代的 ins
  • 从数字人到「有温度的」机器人,京东把 AI 深度应用的路线图「摸透」了
  • 开启RL Scaling新纪元,siiRL开源:完全分布式强化学习框架,支持超千卡规模高效训练
  • 共青年之智,铸AGI未来|2025 WAIC云帆奖得主名单揭晓
  • 阿里再开源,全球首个MoE视频生成模型登场,电影级美学效果一触即达
  • 不靠海量数据,如何精准喂养大模型?上交Data Whisperer:免训练数据选择法,10%数据逼近全量效果
  • WAIC2025,斑马智行元神AI获国际测评机构全项第一
  • 蛋白质基座的GPT时代来了?AMix用Test-time Scaling让蛋白质设计迈向通用智能
  • Allegro-FM:剑指分子动力学基础模型,零样本预测89种元素及复杂反应
  • AI 上新|不会用 PS 的我,却敢去小红书上接「设计单」了
  • GMI Cloud 于 WAIC 2025 展现全栈 AI 基建实力,破解出海成本与效率难题
  • WAIC 2025: 斑马智行元神AI大模型,获全球机构测评第一
  • 国内首例!由钉钉AI平台训练的豆蔻大模型通过妇产科主任医师考试
  • 闭幕式 | 2025世界人工智能大会暨人工智能全球治理高级别会议成功举办
  • 智谱发布新一代基座模型GLM-4.5:开源、高效、低价,专为智能体而生
  • AI Agents的“超级大脑”来了 阿里云正式发布无影Agentbay
  • WAIC 2025前探:AI硬件如何改变我们的日常生活
  • 这届WAIC,无问芯穹发布了三个「盒子」
  • 「幻觉」竟是Karpathy十年前命名的?这个AI圈起名大师带火了多少概念?
  • EvaLearn:AI下半场的全新评测范式!
  • 蚂蚁数科发布金融推理大模型 助力金融机构加速落地智能体应用
  • 2025 WAIC容联云AI AGENT论坛启幕,以技术引擎驱动产业智能跃迁
  • 商汤大装置亮相WAIC 2025,多项标志性成果打造AI基础设施新范式
  • 广大、清华等开发EdgeAIGC,让边缘缓存命中率飙升41%,AIGC延迟与成本双降
  • WAIC直击|快手可灵AI引领「生成式AI应用元年」,累计生成超2亿视频
  • 硬核「吵」了30分钟:这场大模型圆桌,把AI行业的分歧说透了
  • ICCV 2025|UV-CoT:无监督视觉推理新突破,偏好优化重塑图像级思维链
  • 扣子开源全家桶,Apache 2.0加持,AI Agent又一次卷到起飞
  • 多模态大模型,真的「懂」世界吗?——揭秘 MLLM 的核心知识缺陷
  • 具身智能,腾讯「低调入局」
  • 首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练
  • 特斯拉廉价 Model Y 减配内饰曝光;Firefox 终止中国账户运营;宇树王兴兴:经常偷懒,用 AI 写代码|极客早知道

图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?

不知道大家是否还记得,人工智能先驱、强化学习之父、图灵奖获得者 Richard S. Sutton,在一个多月前的演讲。

Sutton 认为,LLM 现在学习人类数据的知识已经接近极限,依靠「模仿人类」很难再有创新

未来人工智能的发展需要从经验中学习,而这一路径始终是「强化学习」

这也是 Sutton 一以贯之的观点,不论是过去的文章《苦涩的教训(Bitter Lesson)》还是近期的研究工作,都能够显示出这位 AI 领域的核心人物,对于建立一个简单通用的,面向下一个经验时代的强化学习算法的热情。

image.png

近些天,Sutton 再发新论文,在强化学习领域再次发力,将他在 2024 年的时序差分学习新算法 SwiftTD 拓展到控制领域,在与一些更强大的预处理算法结合使用时,能够展现出与深度强化学习算法相当的性能表现

image.png

  • 论文标题:Swift-Sarsa: Fast and Robust Linear Control

  • 论文链接:https://arxiv.org/abs/2507.19539v1

Sutton 在 2024 年提出了一种用于时序差分(TD)学习的新算法 ——SwiftTD。该算法在 True Online TD (λ) 的基础上进行了增强,融合了步长优化、对有效学习率的约束以及步长衰减机制。在实验中,SwiftTD 在多个源自 Atari 游戏的预测任务中均优于 True Online TD (λ) 和传统的 TD (λ),且对超参数的选择具有较强的鲁棒性。

在这篇论文中,作者将 SwiftTD 的核心思想与 True Online Sarsa (λ) 相结合,提出了一种基于策略的强化学习算法 ——Swift-Sarsa

此外,还提出了一个用于线性基于策略控制的简单基准测试环境,称为「操作性条件反射基准」(operant conditioning benchmark)。

问题与方法

控制问题

本论文的控制问题由观测(observations)和动作(actions)构成。智能体在每一个时间步 t 接收到一个观测向量 x_t ∈ ℝⁿ,并输出一个动作向量 a_t ∈ ℝᵈ。观测向量中包含一个特殊的分量,即奖励 r_t。该奖励所在的分量索引在整个智能体生命周期中是固定不变的。

控制问题的性能通过生命周期平均奖励(lifetime average reward)来衡量,定义如下:

image.png

在控制问题中,智能体所选择的动作将决定其未来所能感知到的观测,因此智能体的目标是通过控制未来的观测序列来最大化其生命周期奖励。

Swift-Sarsa

SwiftTD 能够比以往的 TD 学习算法更准确地学习预测值。使其具备更优预测能力的核心思想,同样也可以应用于控制算法中。将 SwiftTD 的关键思想与 True Online Sarsa (λ)(Van Seijen 等,2016)结合,是将其应用于控制问题最直接的方式。

在控制问题中,智能体在每一个时间步的输出是一个具有 d 个分量的向量。Swift-Sarsa 限于动作数量离散的问题。如果动作向量的每个分量只能取有限个数值,那么整个动作空间就可以表示为一个有限的离散动作集合。

Swift-Sarsa 使用 SwiftTD 来为其 m 个离散动作中的每一个学习一个价值函数。在每个时间步,它会计算所有动作的价值,并将它们堆叠起来形成一个动作 - 价值向量。一个策略函数 π: ℝᵐ → {1, …, m} 接收该动作 - 价值向量作为输入,并返回一个离散动作。

当前时间步所选动作的价值被用于构建 bootstrapped target,而前一时间步所选动作的价值则作为预测值用于估计 TD 误差。只有当前所选动作对应的价值函数的资格迹(eligibility trace)向量会被更新。

可以用一些记号对该算法进行更具体的描述。设 wiₜ 是在时间步 t 时,第 i 个动作对应的价值函数的权重向量,ϕₜ 是当前时间步的特征向量。那么,第 j 个动作的价值为:

image.png

所有动作对应的价值被堆叠形成一个动作 - 价值向量 v_t−1,t ∈ ℝᵐ,其中:

image.png

设 a_t 和 a_t-1 分别为时间步 t 和 t-1 选择的动作。Swift-Sarsa 中的 TD 误差为:

image.png

除这些修改外,Swift-Sarsa 与 SwiftTD 是一致的。算法 1 给出了 Swift-Sarsa 的伪代码。

image.png

策略函数可以是任意函数,通常会被设计为:价值越高的动作被选择的概率越大。两种常用策略是:

1. ϵ- 贪婪策略(ϵ-greedy policy):以 1 - ϵ 的概率选择具有最高价值的动作,以 ϵ 的概率随机选择一个动作;

2. Softmax 策略:将动作价值转化为离散概率分布。

关于 SwiftTD 算法,请参阅论文:

image.png

  • 论文标题:SwiftTD: A Fast and Robust Algorithm for Temporal Difference Learning

  • 论文链接:https://openreview.net/pdf?id=JdvFna9ZRF

操作性条件反射基准测试

作者设计了一个名为操作性条件反射基准(operant conditioning benchmark)的测试基准,用于评估 Swift-Sarsa 的性能。

该基准定义了一组控制问题,这些问题不需要复杂的探索策略,随机策略也能偶尔选择到最佳动作。这些问题的最优策略可以由线性学习器表示。

在该基准中的问题里,观测向量由 n 个二值分量组成,动作向量由 d 个二值分量组成。n 和 d 是超参数,只要 n > d,它们的任意组合都定义了一个有效的控制问题。

在某些特定的时间步,观测向量的前 m 个分量中恰好有一个为 1,其余时间步则全部为 0。当前 m 个分量中的第 i 个在某个时间步为 1 时,若智能体选择的动作向量中第 i 个分量为 1 且其余分量为 0,则该智能体将在之后获得一个延迟奖励。该奖励延迟 k_1 个时间步,其中 k_1 是一个变量,每次智能体选择该奖励动作时从区间 (ISI_1, ISI_2) 中均匀采样。在所有其他时间步,奖励为 0。

每隔 k_2 个时间步,观测向量的前 m 个分量中会随机有一个被置为 1,其中 k_2 是一个变量,每次从区间 (ITI_1, ITI_2) 中均匀采样。

在每一个时间步,观测向量中其余 n − m 个分量中每一个以概率 µ_t 被置为 1。初始时 µ_1 = 0.05,之后按如下规则递归更新。

image.png

操作性条件反射基准的灵感来源于 Rafiee 等人(2023)提出的动物学习基准。动物学习基准的设计灵感来自行为主义者在动物身上进行的经典条件反射实验,而操作性条件反射基准则是受到了操作性条件反射实验的启发。两者的关键区别在于:

  • 在操作性条件反射实验中,动物所选择的行为会影响奖励的出现频率;

  • 而在经典条件反射实验中,动物无法控制奖励的出现,只能学习去预测即将到来的奖励(如巴甫洛夫的狗实验)。

实验结果

本论文在操作性条件反射基准上针对不同的 n 值对 Swift-Sarsa 进行了实验。

图 1 展示了在两种不同 n 值下,元步长参数(meta-step-size)和初始步长参数对平均奖励的影响。类似于 SwiftTD 的表现,Swift-Sarsa 的性能随着元步长参数的增大而提升,表明步长优化带来了明显的好处。在较宽的参数范围内,Swift-Sarsa 实现的生命周期奖励接近最优生命周期奖励(约为 0.014)。当干扰特征数量增加时,问题变得更具挑战性,Swift-Sarsa 的表现也随之下降。

image.png

在第二组实验中,我们比较了步长衰减(step-size decay)对 Swift-Sarsa 性能的影响,结果如图 2 所示。与其在 SwiftTD 中的作用类似,当初始步长参数设置过大时,步长衰减能够提升 Swift-Sarsa 的性能。

image.png

值得注意的是,若将 Swift-Sarsa 与更强大的预处理方法结合使用,它在更复杂的问题上(如 Atari 游戏)可能也能达到与深度强化学习算法相当的性能水平

更多信息,请参阅原论文。

]]>

联系我们