52CV 2025-10-03 12:42 江苏
一、论文基本信息
类别 | 详情 |
---|---|
论文标题 | RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning |
作者 | Hao Gao, Shaoyu Chen, Bo Jiang, Bencheng Liao, Yiang Shi, Xiaoyang Guo, Yuechuan Pu, Haoran Yin, Xiangyu Li, Xinbang Zhang, Ying Zhang, Wenyu Liu, Qian Zhang, Xinggang Wang |
所属机构 | 1 华中科技大学(Huazhong University of Science & Technology) |
论文地址 | |
项目主页 | |
代码仓库 |
二、研究背景:端到端自动驾驶的核心挑战
当前主流的端到端自动驾驶(AD)算法多采用模仿学习(IL) 范式,通过模仿人类驾驶演示训练模型。然而,IL存在两大关键瓶颈,严重限制其在真实场景的部署:
因果混淆(Causal Confusion):IL仅学习观测(状态)与动作的相关性,而非因果关系,易导致“捷径学习”(如仅从历史轨迹外推未来路径),对碰撞等安全关键事件敏感度不足。
开环 gap:IL在“开环”场景下训练(依赖分布良好的演示数据),但真实驾驶是“闭环”过程——每一步的微小轨迹误差会累积,引发复合错误和分布外场景,导致IL模型鲁棒性不足。
为解决上述问题,强化学习(RL) 成为潜在方案,但需可与AD策略交互的训练环境:
真实道路训练:安全风险高、成本极高;
传统仿真环境(如基于游戏引擎的CARLA):无法提供 photorealistic(照片级真实感)的传感器模拟结果,存在“仿真到真实”的 gap。
在此背景下,研究团队提出基于3D高斯溅射(3DGS)的闭环RL训练范式,构建真实物理世界的数字副本,为端到端驾驶策略训练提供新路径。
三、RAD核心设计:3DGS+RL+IL的协同框架
RAD(3DGS-based Closed-loop Reinforcement Learning for End-to-End Autonomous Driving)并非单一模型,而是一套融合“3DGS环境构建、分阶段训练、奖惩设计、策略优化”的完整解决方案,核心是通过3DGS提供高真实感闭环环境,并结合RL与IL的优势互补,实现驾驶策略的安全与人类对齐。
(一)核心组件1:3DGS数字环境构建
3D高斯溅射(3DGS)是一种高效的神经辐射场渲染技术,相比传统隐式神经表示(如UniSim、MARS),兼具高渲染速度与照片级视觉保真度。研究团队基于真实驾驶数据构建3DGS环境:
从2000小时人类驾驶演示中,筛选4305个高碰撞风险的“密集交通片段”;
将每个片段重建为独立的3DGS环境,其中3968个用于RL训练,337个作为闭环评估基准;
环境中,自动驾驶车辆(ego vehicle)按RAD策略行动,其他交通参与者按真实日志“重放”(log-replay),确保交互真实性。
(二)核心组件2:分三阶段训练范式
为避免RL冷启动不稳定、IL与RL目标冲突,RAD设计“感知预训练→规划预训练→强化后训练”的渐进式流程:
训练阶段 | 目标 | 训练内容 | 参数更新范围 |
---|---|---|---|
感知预训练 | 让模型理解场景高层信息 | 用地图、其他交通参与者(agent)的真值标签,训练BEV编码器、地图头(Map Head)、agent头(Agent Head),生成地图token(车道线)和agent token(位置、速度等) | BEV编码器、Map Head、Agent Head |
规划预训练 | 初始化动作分布,避免RL冷启动 | 用大规模人类驾驶演示的里程计信息,通过IL训练图像编码器和规划头(Planning Head),让策略初步对齐人类驾驶行为 | 图像编码器、Planning Head(BEV编码器等冻结) |
强化后训练 | 提升安全鲁棒性+保持人类对齐 | RL:通过3DGS环境的试错,优化策略对安全关键事件的敏感度; | 图像编码器、Planning Head(BEV编码器等冻结) |
(三)核心组件3:精细化奖惩与动作空间设计
1. 解耦的动作空间
为降低RL探索成本、加速收敛,RAD将驾驶动作分为横向(Lateral) 和纵向(Longitudinal) 两个独立维度,基于0.5秒时间窗口设计离散动作:
横向动作():对应车辆左右位移,离散为61个选项(范围:-0.75m ~ 0.75m);
纵向动作():对应车辆前进位移,离散为61个选项(范围:0 ~ 15m);
动作计算:基于简化运动模型(恒定线速度、角速度),由动作直接推导车辆的线速度()和转向角()。
2. 安全导向的奖惩函数
奖惩函数()以“惩罚危险行为、鼓励对齐专家轨迹”为核心,包含4个关键组件,触发时直接终止训练episode(避免噪声数据影响):
奖惩组件 | 触发条件 | 作用 |
---|---|---|
动态碰撞惩罚() | 自动驾驶车辆 bounding box 与动态障碍物(如行人、其他车辆)重叠 | 避免与移动目标碰撞 |
静态碰撞惩罚() | 自动驾驶车辆 bounding box 与静态障碍物(如路边护栏)的3DGS高斯体重叠 | 避免与固定目标碰撞 |
位置偏差惩罚() | 车辆当前位置与专家轨迹最近点的欧氏距离超阈值 | 保证轨迹与人类驾驶一致 |
航向偏差惩罚() | 车辆当前航向角与专家轨迹航向角的差值超阈值(40°) | 保证行驶方向稳定 |
3. 辅助目标加速收敛
针对RL常见的“稀疏奖励”问题,RAD设计4个辅助目标,为动作分布提供密集指导,分别对应上述4类奖惩场景(以动态碰撞为例):
动态碰撞辅助目标:若前方有碰撞风险,提升“减速动作”的概率;若后方有碰撞风险,提升“加速动作”的概率;
所有辅助目标通过“方向因子”(如前方碰撞时方向因子=1,后方= -1)调整动作概率分布,最终与PPO目标结合优化。
(四)核心组件4:PPO+GAE的策略优化
RAD采用近端策略优化(PPO) 框架,结合广义优势估计(GAE) 处理闭环环境中的误差累积问题:
优势分解:将总优势(Advantage)按横向、纵向动作分解,分别优化横向(对应静态碰撞、位置/航向偏差)和纵向(对应动态碰撞)策略;
Clipping约束:通过Clip函数限制策略更新幅度,避免参数剧烈波动,保证训练稳定;
最终优化目标:(PPO目标+辅助目标加权和)。
四、实验结果:安全与人类对齐双突破
RAD在3DGS闭环评估基准上,从安全性、轨迹一致性、驾驶平滑度三大维度验证效果,核心指标全面超越传统IL方法。
(一)关键消融实验:验证设计有效性
1. RL与IL比例平衡(最优4:1)
RL:IL比例 | 总碰撞率(CR)↓ | 平均偏差距离(ADD)↓ | 结论 |
---|---|---|---|
0:1(纯IL) | 0.229 | 0.238 | 轨迹一致性好,但安全性极差 |
1:0(纯RL) | 0.143 | 0.345 | 安全性提升,但轨迹偏离人类驾驶 |
4:1(最优) | 0.089 | 0.257 | 安全性最高,且轨迹一致性稳定 |
8:1(RL主导) | 0.125 | 0.323 | 轨迹平滑度下降,ADD恶化 |
2. 完整奖惩函数的必要性
仅使用部分奖惩组件时,总碰撞率(CR)均高于“全组件”方案(ID6),其中缺少“动态碰撞惩罚”的方案(ID2)CR最高(0.238),证明动态碰撞规避是安全驾驶的核心。
方案ID | 包含奖惩组件 | 总碰撞率(CR)↓ |
---|---|---|
1 | 仅动态碰撞 | 0.172 |
2 | 静态碰撞+位置/航向偏差 | 0.238 |
6 | 全组件(动态+静态+位置+航向) | 0.089 |
(二)与IL方法的对比:3倍降碰撞率
在相同人类演示数据训练下,RAD相比VAD、GenAD、VADv2等主流IL方法,在核心安全指标上实现碾压式提升:
总碰撞率(CR):RAD仅0.089,是VAD(0.335)的1/3.8,GenAD(0.341)的1/3.8,VADv2(0.270)的1/3.0;
动态碰撞率(DCR):RAD 0.080,远低于VAD的0.273、GenAD的0.299;
轨迹一致性(ADD):RAD 0.257,与IL方法相当,证明安全性提升未牺牲人类对齐;
(三)定性结果:复杂场景的鲁棒性
在“礼让行人”“无保护左转”“拥堵跟车”“掉头”等复杂场景中,RAD表现显著优于纯IL策略:
纯IL策略:频繁出现碰撞(如未避让行人)、轨迹错乱(如车道偏离);
RAD:能稳定规避动态障碍物,保持与人类驾驶一致的轨迹,动作序列更平滑。
五、研究总结与贡献
RAD的核心价值在于首次将3DGS技术与RL/IL融合,为端到端自动驾驶提供“高真实感闭环训练环境+高效策略优化方案”,具体贡献如下:
开创3DGS-RL框架:首次提出基于3DGS的端到端AD策略RL训练框架,通过3DGS构建 photorealistic 数字环境,解决“仿真到真实”的gap;
RL与IL协同优化:RL弥补IL的因果混淆和开环gap问题,IL约束RL的“非人类行为”,实现“安全鲁棒性+人类对齐”的双赢;
验证有效性:在3DGS闭环基准上,RAD实现3倍降碰撞率,且轨迹一致性、驾驶平滑度优于现有IL方法,为真实场景部署奠定基础。
六、未来方向
当前3DGS环境中,其他交通参与者采用“日志重放”(非反应式),未来将优化为“反应式环境”(如其他车辆根据ego行为调整动作),并提升3DGS在“非刚性行人渲染”“弱光场景”中的效果,进一步扩大RL训练规模。
RAD的开源项目主页(https://hgao-cv.github.io/RAD)提供了完整的实验结果可视化,为后续研究提供重要参考,有望推动端到端自动驾驶向“更安全、更贴近人类驾驶”迈进。此外,RAD 已在 GitHub(https://github.com/hustvl/RAD)开源了强化学习训练的核心代码,便于研究者开展相关研究。