动态列表

  • 沉迷贪吃蛇,7B小模型竟变身「数学天才」!几何推理碾压GPT-4o
  • 形式化证明迈向多模态,MLLM正确率仅4%!港科大等推出全新基准
  • 谷歌Veo 3魔性切水果刷屏全网!逼真视频狂吸10万粉,全体网友颅内高潮
  • 3D高斯泼溅,可输入视图量高达500!推理速度提升3倍,内存少80%
  • AI子弹已上膛!OpenAI斩获美国防部2亿美元大单,密谋向微软「开枪」
  • 逐个token太慢!大模型原生并行出token,CMU、英伟达新作Multiverse
  • 想知道你的LLM API被过度收费了吗?隐藏的Tokens终于可以被审计了
  • 23 万的小鹏G7,「硬刚」Model Y和小米YU7
  • 豆包电脑版上线AI播客功能,支持一键生成播客
  • 准确率是DeepSeek-R1两倍以上,前谷歌CEO押注的初创公司开源240亿参数科学推理模型
  • Nature子刊 | 显著提升生物医学中蛋白质递送能力,生成式AI扩展线粒体靶向工具包
  • 读博士,去哪找那么多创新点?水水得了...
  • ICML 2025 | 北大KA-Prompt首创提示知识对齐范式,跨域推理不再“鸡同鸭讲”
  • 欧洲团队开源「地球AI大脑」!EarthMind突破遥感多模态统一理解壁垒
  • 北京内推 | 联想研究院人工智能实验室招聘多模态算法实习生
  • 首个转型AI公司的新势力,在全球AI顶会展示下一代自动驾驶模型
  • 从扭秧歌到跑半马:机器人离「iPhone时刻」还有多远?
  • 首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会
  • 同一天开源新模型,一推理一编程,MiniMax和月之暗面开卷了
  • 突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star
  • 从「万元咨询」到夸克免费 AI:一场高考志愿的「信息平权」之战
  • CVPR 2025 | 零开销缓解物体幻觉:基于零空间投影的多模态大模型物体幻觉消除方法
  • 刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
  • 搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好
  • 华为发「天才少年」课题,涉 AI、汽车;雷军:小米 YU7 提前发布;川普推「MAGA」土豪金手机,3585 元起
  • Nature警告:AI「数据饥渴症」引爆学术宕机潮!90%知识库濒临崩盘
  • 刚刚,谷歌AI路线图曝光:竟要抛弃注意力机制?Transformer有致命缺陷!
  • 亚马逊码农噩梦来袭!沦落「仓库工人」,每天流水线分拣「AI代码」
  • 特朗普「全政府AI计划」竟在GitHub泄密!或于7月4日「独立日」上线
  • 目标检测之“看见角度”:YOLO11 与定向边界框(OBB)检测
  • 大力出奇迹失灵了?ModelSwitch跳出采样黑洞,改写大模型推理范式
  • ACL 2025 | 数据多不如风格齐?SCAR精选<1%样本,指令微调效果飙升
  • 从“比像素”到“懂语义”!Video-Bench实现视频质量精准打分,突破73%人类认同率
  • 北京内推 | 小米汽车自动驾驶与机器人部招聘感知算法实习生
  • 「人类飞机上吵架看呆袋鼠」刷屏全网,7000万人被AI耍了
  • SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?
  • Nature子刊,北大团队使用多视图GNN进行基于生态位的细胞间通信研究
  • 九章云极发布九章智算云Alaya NeW Cloud 2.0, 开创Serverless+RL技术趋势
  • AI进化三年,产业落地真拐点可能就在这场全球顶尖金融智能赛事里
  • 初赛报名截止倒计时!75万奖池+心动Offer,启元实验室重磅赛事等你来战!
  • 高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
  • 如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架
  • Nature子刊,中国科大团队提出迁移学习指导的圆偏振磷光材料设计
  • 复旦团队让线粒体自噬「可视化」,AI-FM揪出抗阿尔茨海默病潜力药
  • 通过对话即可执行DNA、RNA和蛋白质任务,InstaDeep提出多模态智能体ChatNT
  • 大模型能否读懂真实病历?哈佛医学院发布BRIDGE大规模多语言评测基准
  • Muon作者仅用一篇博客,就被OpenAI看中了
  • ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
  • 罗永浩数字人开播,GMV超 5500 万;泡泡玛特首家珠宝店正式开门;特斯拉 Robotaxi 真车曝光
  • 刚刚!陶哲轩3小时对话流出:AI抢攻菲尔兹奖倒计时
  • 《人类简史》作者怒怼硅谷:智能≠真理,AI正在走偏!
  • 12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈
  • 硅谷精英集体参军!代号「201分队」,Meta、OpenAI首席技术官入伍
  • 刚获得一亿美元融资的地瓜机器人,挑战让智能机器人变得更便宜
  • 放弃博士学位加入OpenAI,他要为ChatGPT和AGI引入记忆与人格
  • 机器人也能边想边做!清华团队OneTwoVLA让机器人煮火锅、炒菜、调酒样样精通
  • 复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕
  • 谢赛宁敲响学界警钟!AI研究可能陷入一场注定失败的有限游戏
  • AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字
  • CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶
  • 首个统一的图像与视频AIGC可解释性检测框架,多榜单SOTA性能
  • 特朗普或推出以其名字命名的手机品牌;百度启动最大规模 AI 人才招聘;《鱿鱼游戏》第三季预告发布|极客早知道
  • 小扎豪掷143亿美元赌新「王」!28岁华人亿万富翁入职Meta,与谷歌决裂
  • 模型遗忘不代表记忆抹除!首次系统发现「可逆性遗忘」背后规律
  • 谢赛宁开炮,现场打脸CVPR评审!Sora开山之作DiT被拒,怒斥AI学术圈畸形
  • 和AI聊太深?他们离婚、跳楼、自杀了!ChatGPT精神病正在爆发
  • LLM已能自我更新权重,自适应、知识整合能力大幅提升,AI醒了?
  • 多智能体在「燃烧」Token!Anthropic公开发现的一切
  • 苹果《思考的错觉》再挨批,Claude与人类共著论文指出其三大关键缺陷
  • 单卡4090也能高质量视频编辑!西湖AGI Lab无训练框架FlowDirector来了
  • ICCV 2025 MARS2 Workshop 多模态推理竞赛启动
  • 消息称腾讯未考虑收购 Nexon;追觅否认「断指计划」;李国庆与俞渝就财产分割达成最终和解
  • 光场显微飞跃AI时代!清华等首提SeReNet:毫秒级高分辨光场三维重建
  • 苏妈联手OpenAI,AMD发布3nm怪兽MI355X,性能碾压英伟达B200!
  • 何恺明评审,谢赛宁获奖!牛津华人博士生拿下CVPR 2025最佳论文
  • 刚刚,CVPR 2025奖项出炉:牛津&Meta博士生王建元获最佳论文,谢赛宁摘年轻研究者奖
  • ICML 2025 | 千倍长度泛化!蚂蚁新注意力机制GCA实现16M长上下文精准理解
  • 字节跳动技术副总裁洪定坤:TRAE 想做 AI Development
  • 「倒计时3天」2025 WAIC云帆奖全球征集|共青年之智,铸AGI未来
  • 2025谷歌研究学者计划名单:吴佳俊、Mamba作者Albert Gu、Tri Dao等获奖
  • 一粒「扣子」,开启了Agent的全生命周期进化
  • 聊透 Agent,它是「同事」还是「工具」,创业机会和价值究竟是什么?
  • 零训练即可实现自我演化!首个基于科学智能体架构的AI疾病生物学家发布
  • 腾讯2026青云计划启动,百余项技术课题支持青年人才挑大梁
  • AI研究人员如何节约能源?通过反向计算
  • 提前15天预测50种可能情景,谷歌DeepMind凭借新模型彻底改变了台风预报
  • 腾讯打出「AI岗位薪酬不限」的底气来自哪?
  • 1200行代码逆袭!DeepSeek工程师开源轻量级vLLM,吞吐量逼近原版
  • 刚刚,Scale AI CEO Alexandr Wang正式官宣:Meta重金投资并挖走了我
  • 统一20+多智能体方法,MASLab震撼发布
  • CVPR 2025 论文推荐 :VGGT,快速 3D 重建新范式
  • 科大讯飞最新发布!打造下一代智能交互新范式
  • AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need
  • CVPR 2025 Highlight|北大联手智元发布首个基于说明书的家电操作评测基准
  • 波音 787 在印度发生首次坠毁事故;哪吒汽车通知员工居家办公;阿里发布高考志愿大模型|极客早知道
  • DeepMind首个猜想库开源,获陶哲轩力挺!
  • 1万块GPU砸向欧洲!老黄怒怼AI末日论:全球首个工业AI云来了
  • 何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍
  • CVPR 2025 多模态大一统:斯坦福 x 复旦提出符号主义建模生成式任务
  • 精度达原子级,基于深度学习的动态蛋白质设计,登Science
  • 英伟达打造全球首个工业AI云,配万块GPU,物理AI机器人集群已启动
  • 字节自研AI IDE “TRAE”,月活用户已超百万
  • 从高考到实战,豆包大模型交卷了
  • 通义实验室最新成果WebDancer:开启自主智能Deep Research的新时代
  • 256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV
  • 拆解火山引擎后,我看到了字节跳动的「变奏」
  • ACL 2025 | 让大模型听懂育种的语言,科学家提出首个种子科学多任务评测基准SeedBench
  • ICML 2025 | Agentic时代唤醒NAS"第二春"!智能体超网动态组队,推理成本暴降55%
  • Image Caption复兴宣言!南大港大CapArena重塑「详细图像描述」评测体系
  • 视频理解“隐秘的角落”:多任务视频文本理解评测新基准VidText发布
  • 博士申请 | 上海交通大学人工智能学院刘松桦老师招收视觉生成方向博士/硕士/实习生
  • SIGGRAPH 2025奖项出炉:上科大、厦大最佳论文
  • 2D图像作中介,零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程
  • 刚刚,LeCun亲自出镜,Meta推出新世界模型!
  • 银河通用X清华大学发布业内首款开源人形机器人全身遥操系统OpenWBT,支持多机型、跨虚实,小时内可轻松部署
  • CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源
  • 马斯克道歉,特朗普回应;阿里离职员工发万字长文,马云回应;华为发布 Pura 80 系列,余承东称对得起那四个字
  • 这届机器人太会了!百事蓝宝出道,人形机器人也开始卷情绪价值了
  • 全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科
  • 无需上下文,MCP新机制让大模型主动“提需”:节约 98% token 开销,并保持准确率基本不变!
  • 500 万下载、ARR 400 万美元,这只「外星 AI」为何让年轻人上头?
  • 开盘暴涨 3 倍,全球化的影石给中国硬件创新立了新榜样
  • 这家日本企业,有张能跑「百万行」的飞书多维表格!
  • AutoMat:让「看见原子」成为「理解材料」的科学直通车
  • 浙大开发的荧光纳米传感器,超96.67%的准确率识别植物信号
  • 1000 亿天价,扎克伯格买下「半个天才」和 Meta AI 的未来
  • 「Next-Token」范式改变!刚刚,强化学习预训练来了
  • Mistral的首个强推理模型:开源开源,推理速度快10倍
  • 103K「硬核」题,让大模型突破数学推理瓶颈
  • 10%训练数据超越100%表现,机器人学习领域迎来重要突破
  • 建议所有博士都去学一遍,赢麻了!
  • ACL 2025 | 多维阅卷,智识觉醒:打开多模态大模型看图写作评估的认知之门
  • 20 万一台的「人脑计算机」,可能是人类战胜 AI 的唯一方式?
  • 刚刚,OpenAI正式发布o3-pro!奥特曼激动更新博客:温和的奇点
  • 时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8
  • 高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二
  • iOS 26 丑上热搜;多家车企宣布将账期统一至 60 天内;OpenAI 推出最强推理模型 o3-pro | 极客早知道

CVPR史上首次!中国车厂主讲AI大模型,自动驾驶也玩Scaling Law?



  新智元报道  

编辑:编辑部 ZYXH
【新智元导读】不去今年的CVPR不知道,原来中国自动驾驶在AI领域的创新已经这么牛了。作为今年唯一受邀参与CVPR演讲的车企,这家公司在AI顶流圈层上桌吃饭了!

刚刚,世界计算机三大顶会之一——CVPR 2025正式落幕。

每年,CVPR吸引了来自世界各地研究者、行业领袖齐聚一堂,分享前沿成果。

展厅里,最新算法模型、3D重建、自动驾驶、生成式视觉等技术的demo令人目不暇接,Poster区更是人头攒动。

各种Keynote演讲座无虚席,激发学者无数灵感。

在这场学术与科技热潮中,一个专注于未来出行和自动驾驶的专题研讨会格外引人关注——CVPR Workshop on Autonomous Driving(WAD)

自AI大模型浪潮出现以来,自动驾驶领域的技术范式发生了很大转变——从以前由人类编写规则的模型,变成了依靠大量数据进行训练的AI模型。相关的技术发展也成了这几年CVPR会议上的热门话题。

一直以来,CVPRWAD的参与者和讲演者都是在自动驾驶业界创造里程碑式贡献的领军人物,比如大家熟知的Andrej Karpathy(前特斯拉AI和自动驾驶部门负责人、OpenAI创始成员),Ashok Elluswamy(特斯拉自动驾驶负责人)等等。

这届WAD研讨会也不例外,官方邀请了一众大咖来发表演讲,不光有Waymo、英伟达,还包括来自CMU、港大、UC伯克利等机构的学术研究者。

传送门:https://cvpr2025.wad.vision/

令人瞩目的是,一家中国车企也上桌了。

在WAD上,受到CVPR直邀的小鹏汽车世界基座模型负责人刘先明发表了题为《通过大规模基础模型实现自动驾驶的规模化》(Scaling up Autonomous Driving via Large Foudation Models)的演讲。

内容涵盖小鹏自研的业界首个超大规模自动驾驶基座模型的历程和方法,在模型预训练、强化学习、模型车端部署、AI和数据基础设施搭建方面的前沿探索等,为同行带去了工业领域最重磅的实践经验。

值得一提的是,小鹏是本届大会上唯一一个大型量产车公司嘉宾,而这也是小鹏继2023年之后又一次在CVPR分享自动驾驶前沿成果

正当学者们在大洋彼岸的CVPR WAD现场进行思维碰撞时,中国的消费者也在同一天见证了搭载「L3级算力平台」的最新AI汽车——小鹏G7的亮相。

相比于传统燃油车的电子化和上一代电车中的算力水平,小鹏给出了自己的「L3级算力平台」标准:

  • 有效算力大于2000 TOPS:堪称汽车里自带一个「移动超算」,作为对比,苹果16 Pro Max搭载的最新A18 Pro的算力为45 TOPS,小鹏G7是其40多倍;

  • 搭载本地部署的「VLA+VLM模型」:视觉与语言深度融合,本地化部署无延时,响应更快,无需担忧网络,面对极端路况更有底气。

这样强大的算力,让小鹏自动驾驶的AI能力更上了一个新台阶。

大家猜猜,下面这些车用了多少行规则代码开成这样?

变道超车

连续变道超车

提前变道,避让施工区;继续通行,遇到从小路汇入主路的大货车,减速应对

直行道上,前方大车切出后,看到临停车,变道绕行;遇到突然横穿马路的电动摩托车,成功避让;左侧忽然有一辆大货车加塞,减速灵活应对

雨天,无保护左转,路况复杂,汽车、二轮车混行,成功避让

答案是——0。

可以看到,在没有任何规则代码托底的情况下,小鹏最新的自动驾驶基座模型已展现出令人惊喜的基础驾车技能,比如丝滑地加减速、变道绕行、转弯掉头、等待红绿灯。


今天的自动驾驶,难点在哪


这些令人惊艳的案例背后,是小鹏团队对于自动驾驶AI的多年艰难攻关。

要理解这个过程,首先我们需要明白的一个问题,就是如今自动驾驶的难点在哪里。

虽然则时代的自动驾驶模型,也能解决大部分常见的驾驶问题,但无法处理那些罕见的、复杂的、事关安全的长尾问题,也即corner case。而不解决corner case,就不可能走向真正的L3、L4。

也就是说,自动驾驶真正的核心难点,在于处理那些罕见的、复杂的、事关安全的长尾问题。

因为这些问题发生概率极低,就很难有足够数据让模型学习。

那么,是否有可能让模型能像人类一样,基于常识和经验处理长尾问题呢?毕竟,人类学车也并不是遍历所有区域、所有场景。

此时的破局点,就在于让自动驾驶模型从只会模仿学习,做到长出一个「大脑」,处理从未在训练数据中见过的场景。

怎么办?小汽车根据多年经验,决定进行一个大胆的实验——在云端训出一个会思考的超级大脑!

神奇的事情发生了:云上大模型开始「涌现」。
据刘先明介绍,研发团队训练了从10亿到720亿等不同尺寸的模型,持续向模型「投喂」更大规模的训练数据,他们清晰地看到了Scaling Law的显现,也就是说,模型参数越大、模型学习的数据越多,模型的性能越强。
这是大模型浪潮以来,行业内首次明确验证规模法则(Scaling Law)在自动驾驶VLA模型上持续生效。
接下来,我们把小鹏720亿参数的基座模型打开看看,这个「AI大脑」里有什么。

它跟传统的「小脑」型自动驾驶模型最大的不同,就在于具备思维链推理的能力(CoT)。

由此,模型仿佛具备开车能力和思考能力的「大脑」,能让汽车像人类一样主动思考和理解世界,处理训练数据中从未见过的长尾场景,而非机械执行程序员写好的规则。

这种由过去纯粹只懂开车、不懂思考的「小脑」到「大脑」的飞跃,是自动驾驶技术的质变。

从此,汽车有望完成从L2辅助驾驶到L4自动驾驶的纵向技术迭代,最终抵达真正的无人驾驶!

小鹏汽车的VLA大模型以大语言模型为骨干网络,用了海量优质的自动驾驶数据训练而成,具备视觉理解能力、链式推理能力和动作生成能力。

本身的强大性能加上后训练阶段的RL,让它获得了高度类人的CoT,即使在极为复杂、危险或罕见的场景,都能进行清晰的逻辑推理——

「我面临的环境是什么样的?眼前有哪些影响我开车的关键对象?现在交通信号灯让不让走?我应该怎么操作既安全、又合规,最好还能比较有效率?想好了,我现在输出一条轨迹……」

在这个过程中,小鹏持续「投喂」了更大规模的训练数据。目前,基座模型累计吃下了2000多万条视频片段(每条时长30秒)。团队也清晰地看到了Scaling Law的显现!

L2无法进化到L4,突破口在哪里?


正如上文所述,此前很多人认为,L2无法进化到L4,就是因为当时的自动驾驶模型只会「模仿学习」,处理训练数据中见过的场景。

小鹏的解法,就是用强化学习,做出高度拟人的「AI大脑」。

但这过程中,就又遇到了一个难题:由于车端算力限制,最终能够部署上车的模型参数都很小,目前业界常见的车端模型参数只在几百万到十亿级别。

这样,Scaling Law根本就无从发挥,更无法实现强大CoT。

为此,小鹏早在去年,就独具慧眼地确定了云端基模技术路线——在云端「不计成本」地训练超大规模基座模型,再通过蒸馏,帮模型跳出车端算力的「一亩三分地」。

刘先明介绍说,「云端基座模型+强化学习的组合,是让模型性能突破天际的最好方法」。

前者,就好比人的智商,而后者,就好比能力激化器。

巧的是,开车也正是个非常适用强化学习的领域。

小鹏为此开发了自己的强化学习奖励模型,在完成预训练、SFT之后,就会进入RL阶段,从安全、效率、合规三个方向上激发基模潜能。

如今,小鹏已经有几十万辆辅助驾驶车辆跑在全国各地,源源不断创造着新训练数据,包括大量长尾场景。

而小鹏的车主们,也不断为AI辅助驾驶的智能所惊叹。

比如,前不久一位福州用户开到了红绿灯路口,发现对面主干道有两棵大树,居然需要从两棵树的缝隙之间穿越而过,这复杂的路况让人类司机都会愣上一阵。

这个典型的CoT场景,就需要模型做出大量实时推理:「我在哪?发生了什么?我要怎么走?」

令人惊喜的是,小鹏智能辅助驾驶系统居然顺利地一把过了!

而这,仅仅是一个开始。

目前,小鹏汽车自动驾驶团队已经开始自研「世界模型」(World Model)了。

作为实时建模和反馈系统,它基于动作信号模拟真实环境状态,渲染场景,生成场景内其他智能体(交通参与者)的响应,构建出闭环反馈网络。

这一系统,将助力基座模型的强化学习训练,显著提升模型在复杂场景中的决策能力。


一流AI公司,成就一流自动驾驶公司


过去,全球自动驾驶的核心叙事者一直是Waymo、特斯拉。

但小鹏CVPR的演讲证明,中国车企正在用AI重新定义游戏规则。

正如刘先明所言,「大模型时代,想做一流的自动驾驶公司,首先必须成为一流的AI公司」。

为了研发下一代自动驾驶基座模型,小鹏汽车从2024年开始布局,建成国内汽车行业首个万卡智算集群,算力高达10 EFLOPS,集群运行效率常年保持在90%以上,模型全链路迭代周期平均仅5天。

如此算力规模和运营效率,足以媲美全球头部AI企业。

这套云到端的生产流程,被命名为「云端模型工厂」,支持基座模型预训练、后训练、模型蒸馏,以及车端模型训练等全流程任务。

与LLM不同的是,自动驾驶基座模型的研发面临更大的复杂性和挑战。

自动驾驶模型需要融合摄像头、导航信息等多模态数据,形成对物理世界的精准认知,并在动态驾驶场景中完成推理、决策和控车操作。

它的训练需要从头验证所有技术问题,包括Scaling Law。

相较于大模型行业的「卷模型、卷技术」,汽车行业的AI化仍是少数派。特斯拉是这一赛道的先行者,其FSD系统背后强大的AI模型和基础设施令人叹服。

而小鹏汽车正以同样的决心,加速追赶并试图超越。

在CVPR上,小鹏首次披露了两项核心数据:

  • 数据处理能力:小鹏云上基模训练过程中,累计处理超40万小时的视频数据

  • 流式多处理器的利用率(streaming multiprocessor utilization)达到 85%。

这些数字背后,是小鹏比照全球领先AI公司标准,从0搭建的数据和AI基础设施。

刘先明从两个层面——云端模型训练和车端模型部署,拆解了小鹏自动驾驶团队提升模型训练效率的方法。

云端模型训练


和AI圈熟知的大语言模型(LLM)的训练不同,自动驾驶VLM和VLA的训练,不仅受限于计算瓶颈,还面临数据加载和通信瓶颈。

小鹏团队通过联合优化CPU、GPU和容错性,攻克了大规模并行训练的难题。

针对数据加载问题,研发团队对CPU的利用作了如下优化:

  • 启用额外的CPU节点,以提升GPU节点的数据加载能力;

  • 对PyTorch进行定制化改造,降低进程间通信开销;

  • 采用激进的数据物化策略,进一步减轻CPU在数据加载上的负载;

  • 优化打乱(shuffling)模式,在速度与随机性之间取得平衡。

针对GPU计算资源的利用,优化策略如下:

  • 使用FSDP 2实现模型分片

  • 使用FP8混合精度训练

  • 利用Flash Attention 3加快计算速度

  • 自定义Triton内核

这些优化,让小鹏的「云端模型工厂」在处理海量多模态数据时,实现了极高的效率和稳定性。

车端模型部署


团队自研的图灵AI芯片,为车端模型部署提供了得天独厚的优势。

这款专为大模型设计的芯片,单颗算力就已经远超Orin-X,三颗更是超过了2200 TOPS,未来可以支持L3+级别的智驾体验。

据悉,小鹏汽车的模型、编译器、芯片团队长期联合研发,针对下一代模型开展定制化工作。

比如,定制AI编译器以最大化执行效率,协同设计硬件友好、量化友好的模型架构,确保软硬件充分耦合,目标就是「榨干」车端芯片的算力。

以配备7个摄像头VLA模型为例,每2秒视频输入会产生超5000个token,导致巨大的计算压力。

为此,他们还设计了针对VLA模型的token压缩方法,将token处理量压缩70%(从5000压缩至1500)。

这种软硬协同的极致优化,让小鹏在车端算力有限的场景下,依然实现了高性能智驾。

从CVPR的舞台到全球市场的布局,小鹏汽车以AI为核心,重新定义了自动驾驶的未来。

其端到端大模型、强化学习和数据驱动的开发模式,不仅让中国车企在全球AI智驾领域占据一席之地,更向世界证明了AI创新的无限可能。

在这条自动驾驶赛道上,小鹏正加速驶向改变世界的未来。

参考资料:
https://cvpr2025.wad.vision/


图片


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652602106&amp;idx=1&amp;sn=5b5b4a760a658dae3be9e000f87f3366&amp;chksm=f0ca89cf8b23433ffc55425d1a83334606f1cdeb267af051a1050ded731e764caf57178e1778&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/1SEAdGKxEG&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们