动态列表

  • 刚刚,Anthropic紧急换帅!新任CTO执掌算力命脉,直面OpenAI千亿赌局
  • Gemini 3.0 Pro内测流出,编程实力惊人!下周上线
  • 刚刚,奥特曼首曝:AI取代CEO后,我想去当农民!
  • 华人主导谷歌SLED,论文登顶会!一键让模型学会自救
  • LeCun考虑辞职!Meta AI百亿豪赌引爆「内战」,逼走首席科学家
  • 小米 17 系列销量超百万;苹果新产品泄密源头疑为越南工厂;低价版 model Y 现身官网代码|极客早知道
  • 刚刚,这家0产品0模型就估值854亿的公司,终于发布了首款产品!
  • 刚刚,奥特曼亲赴,韩国「举国」投靠!
  • 奥特曼「一张脸」引爆全球狂欢!Sora 2冲上APP榜第三,邀请码炒到1250元
  • 60岁老人AI养生三个月吃进医院!「AI精神病」全球扩散,OpenAI急招医生
  • 一杯咖啡,3亿美金!斯坦福天才少女退学创业,Meta AI大牛排队加入
  • 武大新作MASt3R-Fusion:融合IMU与GNSS,为新一代视觉SLAM注入“多感官”智慧
  • 中科大、清华、快手等发布OpenGPT-4o-Image:为多模态AI打造的“超级燃料”,图像编辑性能提升18%
  • 历史首位,马斯克身家突破 5000 亿美元;王腾注销、清空多个社媒账号;美国演员工会抵制 AI 演员
  • 刚刚,OpenAI Sora 2重磅登场!首个APP上线,或将成为AI时代新TikTok
  • Sora 2全网疯狂实测:以假乱真、脑洞大开、虚实难分|附首个APP教程和邀请码
  • OpenAI和DeepMind大佬离职联手,誓用AI科学家实现室温超导!已融3亿美元
  • 南洋理工联合商汤提出Visual Jigsaw:像玩拼图一样,显著提升多模态大模型的视觉理解力
  • 天津大学联合腾讯提出Wan-Alpha:一键生成高质量透明视频,发丝级抠图不再是梦
  • OpenAI 深夜重磅推出新视频模型和独立 App;英伟达市值突破4.5万亿美元;特斯拉预计推出第三代人形机器人 | 极客早知道
  • 刚刚!软银系创始人4个月打造机器人超级黑马,获2轮近亿元融资
  • 博士生,当代最穷科研民工?Nature最新调查:不涨工资,我们就跑路了
  • Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调
  • AI改造出行体验:滴滴的试验能否开启行业范式转变?
  • GPT-5「降智」真相曝光:不是变笨,而是五个超级开关没激活
  • OpenAI 刚刚发布了属于 AI 的抖音,还有 Sora 2
  • NeurIPS 2025 | 清华大学与华为等提出全新正则化方法,破解稀疏视图3DGS“协同适应”难题
  • DeFacto:用强化学习治愈AI幻觉,让多模态模型“有据可查”
  • YOLO26首份学界评论:端到端无NMS,目标成为边缘设备实时目标检测新标杆
  • 榜一换人!OCRBench v2九月新榜:揭示多模态大模型文档智能真实水平
  • 把“俄罗斯方块”搬进设计室:物竞天择让振动微型机器人进化得越跑越快
  • LoRA到底能否媲美全参?Thinking Machines用实验曲线划出「无悔区」
  • DeepSeek V3.2 发布,API 成本减半;特斯拉员工被机器人打伤,索赔 5100 万美元;Claude 新模型登场
  • 谷歌Veo 3论文竟无一作者来自美国!揭秘零样本「看懂」世界
  • 零样本「即插即用」!智源开源RoboBrain-X0,一个基座模型开动不同机器人
  • AI老司机现身重庆!徐峥挑战赛车手,上演「不再囧途」
  • 强化学习之父给LLM判死刑!站队LeCun:我们全搞错了
  • 独家!DeepSeek最新模型上线,全新注意力机制基于北大ACL最佳论文
  • KDD 2025 | 看不见也能控:用“基混杂向量”打穿分布移位,交通预测稳了
  • 4B逼近DeepSeek-R1!Bengio团队「递归聚合」刷新小模型上限
  • 北京内推 | 快手可灵AI技术部招聘视频生成/数字人方向算法实习生
  • 在云栖,我们遇见了最会玩的「AI 原住民」
  • NeurIPS 2025 | Seg4Diff:无需分割头,揭示并放大扩散Transformer中的涌现分割能力
  • NeurIPS 2025 | UniPixel:首个统一对象指代与分割的像素级推理框架,让大模型看懂每一个像素
  • 做 AI 陪伴收获 1000 万用户后,前微信 AI 产品负责人,要重新定义生活里的 AI
  • 透视阿里云产品生态团队:AI 落地的「关键通道」
  • OpenAI「降配门」发酵,偷换模型遭全网实锤;小米 SU7 在日本首秀;苹果内部测试类 ChatGPT 应用|极客早知道
  • OpenAI「GPT门」事件引爆!Plus、Pro账户统统降配,偷换模型全网实锤
  • 突发,普林斯顿CS博士后猝然离世!清华本科毕业,刚完成论文答辩
  • 国内首次!8.9毫秒推理速度破纪录,1元打穿百万token
  • 惊现高管离职潮!马斯克亲信操盘xAI,千亿美元能填AGI野望?
  • 黄仁勋2小时反驳「AI泡沫帝国」论!英伟达将成全球首家十万亿市值公司
  • 云与AI,如何托举 Z 世代的创新野心
  • 北京/杭州内推 | 阿里通义实验室招聘多模态大模型与智能体方向算法实习生
  • NeurIPS 2025 | 我奶奶都能复现?条件表征学习:矩阵一乘,表征立马“对齐”!
  • 8GB显卡的逆袭!SSD换显存,3060 Ti硬跑100k长上下文
  • NeurIPS 2025 | 北大等提出C²Prompt:解耦类内与类间知识,破解联邦持续学习“双重遗忘”难题
  • InterDigital开源CompressAI-Vision:为“AI看”的视频压缩,打造一个“通用跑分平台”
  • 24.98万的理想i6,在特斯拉、小米、蔚来「后院」放了一把火
  • 小米 17 开售 5 分钟,破国产机销售纪录;Meta 研发机器人项目;国内发布「脑机接口标准」
  • Stability AI前CEO惊人预测:人类智力价值归零,只剩1000天!
  • 刚刚,奥特曼预言:人类「只剩」最后5年!
  • 免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」
  • 估值840亿AI实验室再放大招,他们要给大模型戴上「紧箍咒」
  • 苹果掀桌!扔掉AlphaFold核心模块,开启蛋白折叠「生成式AI」时代
  • 自动驾驶进入大模型时代,主机厂寻找「联合创始人」
  • 复旦等揭秘机器人“大脑”安全漏洞:一张图就能让它“宕机”,攻击成功率76.2%
  • DASFAA 2025 | 湖大等提出SCRA-VQA:给LLM一份“精装修”的图像描述,无需训练提升VQA性能
  • 苹果官方旗舰店也放假,商品不发货;腾讯推「老年打车」服务;车主酒驾,智能驾驶「报警」|极客早知道

NeurIPS 2025 | RAD:基于大规模3DGS孪生数字世界的端到端强化学习训练策略

52CV 2025-10-03 12:42 江苏

一、论文基本信息

类别

详情

论文标题

RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

作者

Hao Gao, Shaoyu Chen, Bo Jiang, Bencheng Liao, Yiang Shi, Xiaoyang Guo, Yuechuan Pu, Haoran Yin, Xiangyu Li, Xinbang Zhang, Ying Zhang, Wenyu Liu, Qian Zhang, Xinggang Wang

所属机构

1 华中科技大学(Huazhong University of Science & Technology)
2 地平线机器人(Horizon Robotics)

论文地址

https://arxiv.org/pdf/2502.13144

项目主页

https://hgao-cv.github.io/RAD

代码仓库

https://github.com/hustvl/RAD

二、研究背景:端到端自动驾驶的核心挑战

当前主流的端到端自动驾驶(AD)算法多采用模仿学习(IL) 范式,通过模仿人类驾驶演示训练模型。然而,IL存在两大关键瓶颈,严重限制其在真实场景的部署:

  1. 因果混淆(Causal Confusion):IL仅学习观测(状态)与动作的相关性,而非因果关系,易导致“捷径学习”(如仅从历史轨迹外推未来路径),对碰撞等安全关键事件敏感度不足。

  2. 开环 gap:IL在“开环”场景下训练(依赖分布良好的演示数据),但真实驾驶是“闭环”过程——每一步的微小轨迹误差会累积,引发复合错误和分布外场景,导致IL模型鲁棒性不足。

为解决上述问题,强化学习(RL) 成为潜在方案,但需可与AD策略交互的训练环境:

  • 真实道路训练:安全风险高、成本极高;

  • 传统仿真环境(如基于游戏引擎的CARLA):无法提供 photorealistic(照片级真实感)的传感器模拟结果,存在“仿真到真实”的 gap。

在此背景下,研究团队提出基于3D高斯溅射(3DGS)的闭环RL训练范式,构建真实物理世界的数字副本,为端到端驾驶策略训练提供新路径。

三、RAD核心设计:3DGS+RL+IL的协同框架

RAD(3DGS-based Closed-loop Reinforcement Learning for End-to-End Autonomous Driving)并非单一模型,而是一套融合“3DGS环境构建、分阶段训练、奖惩设计、策略优化”的完整解决方案,核心是通过3DGS提供高真实感闭环环境,并结合RL与IL的优势互补,实现驾驶策略的安全与人类对齐。

(一)核心组件1:3DGS数字环境构建

3D高斯溅射(3DGS)是一种高效的神经辐射场渲染技术,相比传统隐式神经表示(如UniSim、MARS),兼具高渲染速度照片级视觉保真度。研究团队基于真实驾驶数据构建3DGS环境:

  1. 从2000小时人类驾驶演示中,筛选4305个高碰撞风险的“密集交通片段”;

  2. 将每个片段重建为独立的3DGS环境,其中3968个用于RL训练,337个作为闭环评估基准;

  3. 环境中,自动驾驶车辆(ego vehicle)按RAD策略行动,其他交通参与者按真实日志“重放”(log-replay),确保交互真实性。

(二)核心组件2:分三阶段训练范式

为避免RL冷启动不稳定、IL与RL目标冲突,RAD设计“感知预训练→规划预训练→强化后训练”的渐进式流程:

训练阶段

目标

训练内容

参数更新范围

感知预训练

让模型理解场景高层信息

用地图、其他交通参与者(agent)的真值标签,训练BEV编码器、地图头(Map Head)、agent头(Agent Head),生成地图token(车道线)和agent token(位置、速度等)

BEV编码器、Map Head、Agent Head

规划预训练

初始化动作分布,避免RL冷启动

用大规模人类驾驶演示的里程计信息,通过IL训练图像编码器和规划头(Planning Head),让策略初步对齐人类驾驶行为

图像编码器、Planning Head(BEV编码器等冻结)

强化后训练

提升安全鲁棒性+保持人类对齐

RL:通过3DGS环境的试错,优化策略对安全关键事件的敏感度;
IL:作为正则项,约束策略偏离人类驾驶行为

图像编码器、Planning Head(BEV编码器等冻结)

(三)核心组件3:精细化奖惩与动作空间设计

1. 解耦的动作空间

为降低RL探索成本、加速收敛,RAD将驾驶动作分为横向(Lateral)纵向(Longitudinal) 两个独立维度,基于0.5秒时间窗口设计离散动作:

  • 横向动作():对应车辆左右位移,离散为61个选项(范围:-0.75m ~ 0.75m);

  • 纵向动作():对应车辆前进位移,离散为61个选项(范围:0 ~ 15m);

  • 动作计算:基于简化运动模型(恒定线速度、角速度),由动作直接推导车辆的线速度()和转向角()。

2. 安全导向的奖惩函数

奖惩函数()以“惩罚危险行为、鼓励对齐专家轨迹”为核心,包含4个关键组件,触发时直接终止训练episode(避免噪声数据影响):

奖惩组件

触发条件

作用

动态碰撞惩罚(

自动驾驶车辆 bounding box 与动态障碍物(如行人、其他车辆)重叠

避免与移动目标碰撞

静态碰撞惩罚(

自动驾驶车辆 bounding box 与静态障碍物(如路边护栏)的3DGS高斯体重叠

避免与固定目标碰撞

位置偏差惩罚(

车辆当前位置与专家轨迹最近点的欧氏距离超阈值

保证轨迹与人类驾驶一致

航向偏差惩罚(

车辆当前航向角与专家轨迹航向角的差值超阈值(40°)

保证行驶方向稳定

3. 辅助目标加速收敛

针对RL常见的“稀疏奖励”问题,RAD设计4个辅助目标,为动作分布提供密集指导,分别对应上述4类奖惩场景(以动态碰撞为例):

  • 动态碰撞辅助目标:若前方有碰撞风险,提升“减速动作”的概率;若后方有碰撞风险,提升“加速动作”的概率;

  • 所有辅助目标通过“方向因子”(如前方碰撞时方向因子=1,后方= -1)调整动作概率分布,最终与PPO目标结合优化。

(四)核心组件4:PPO+GAE的策略优化

RAD采用近端策略优化(PPO) 框架,结合广义优势估计(GAE) 处理闭环环境中的误差累积问题:

  1. 优势分解:将总优势(Advantage)按横向、纵向动作分解,分别优化横向(对应静态碰撞、位置/航向偏差)和纵向(对应动态碰撞)策略;

  2. Clipping约束:通过Clip函数限制策略更新幅度,避免参数剧烈波动,保证训练稳定;

  3. 最终优化目标:(PPO目标+辅助目标加权和)。

四、实验结果:安全与人类对齐双突破

RAD在3DGS闭环评估基准上,从安全性、轨迹一致性、驾驶平滑度三大维度验证效果,核心指标全面超越传统IL方法。

(一)关键消融实验:验证设计有效性

1. RL与IL比例平衡(最优4:1)

RL:IL比例

总碰撞率(CR)↓

平均偏差距离(ADD)↓

结论

0:1(纯IL)

0.229

0.238

轨迹一致性好,但安全性极差

1:0(纯RL)

0.143

0.345

安全性提升,但轨迹偏离人类驾驶

4:1(最优)

0.089

0.257

安全性最高,且轨迹一致性稳定

8:1(RL主导)

0.125

0.323

轨迹平滑度下降,ADD恶化

2. 完整奖惩函数的必要性

仅使用部分奖惩组件时,总碰撞率(CR)均高于“全组件”方案(ID6),其中缺少“动态碰撞惩罚”的方案(ID2)CR最高(0.238),证明动态碰撞规避是安全驾驶的核心。

方案ID

包含奖惩组件

总碰撞率(CR)↓

1

仅动态碰撞

0.172

2

静态碰撞+位置/航向偏差

0.238

6

全组件(动态+静态+位置+航向)

0.089

(二)与IL方法的对比:3倍降碰撞率

在相同人类演示数据训练下,RAD相比VAD、GenAD、VADv2等主流IL方法,在核心安全指标上实现碾压式提升:

  • 总碰撞率(CR):RAD仅0.089,是VAD(0.335)的1/3.8,GenAD(0.341)的1/3.8,VADv2(0.270)的1/3.0;

  • 动态碰撞率(DCR):RAD 0.080,远低于VAD的0.273、GenAD的0.299;

  • 轨迹一致性(ADD):RAD 0.257,与IL方法相当,证明安全性提升未牺牲人类对齐;

(三)定性结果:复杂场景的鲁棒性

在“礼让行人”“无保护左转”“拥堵跟车”“掉头”等复杂场景中,RAD表现显著优于纯IL策略:

  • 纯IL策略:频繁出现碰撞(如未避让行人)、轨迹错乱(如车道偏离);

  • RAD:能稳定规避动态障碍物,保持与人类驾驶一致的轨迹,动作序列更平滑。

五、研究总结与贡献

RAD的核心价值在于首次将3DGS技术与RL/IL融合,为端到端自动驾驶提供“高真实感闭环训练环境+高效策略优化方案”,具体贡献如下:

  1. 开创3DGS-RL框架:首次提出基于3DGS的端到端AD策略RL训练框架,通过3DGS构建 photorealistic 数字环境,解决“仿真到真实”的gap;

  2. RL与IL协同优化:RL弥补IL的因果混淆和开环gap问题,IL约束RL的“非人类行为”,实现“安全鲁棒性+人类对齐”的双赢;

  3. 验证有效性:在3DGS闭环基准上,RAD实现3倍降碰撞率,且轨迹一致性、驾驶平滑度优于现有IL方法,为真实场景部署奠定基础。

六、未来方向

当前3DGS环境中,其他交通参与者采用“日志重放”(非反应式),未来将优化为“反应式环境”(如其他车辆根据ego行为调整动作),并提升3DGS在“非刚性行人渲染”“弱光场景”中的效果,进一步扩大RL训练规模。

RAD的开源项目主页(https://hgao-cv.github.io/RAD)提供了完整的实验结果可视化,为后续研究提供重要参考,有望推动端到端自动驾驶向“更安全、更贴近人类驾驶”迈进。此外,RAD 已在 GitHub(https://github.com/hustvl/RAD)开源了强化学习训练的核心代码,便于研究者开展相关研究。

阅读原文

跳转微信打开

联系我们