动态列表

九天大模型大变身：性能狂飙35%！还能一键P大象
万亿参数狂欢！一文刷爆2025年七大顶流大模型架构
豪拒15亿美金天价Offer，硅谷最狂AI巨星身份曝光！小扎、奥特曼抢破头
兔子蹦迪疯传，5亿观看！全球恐慌：一段AI视频把全人类拉入虚拟现场
全网苦等GPT-5，超级对齐团队遗作成重要线索，奥特曼发话「惊喜很多」
图灵奖得主Sutton再突破：强化学习在控制问题上媲美深度强化学习？
GUI定位还在玩「非黑即白」？浙大团队提出GUI-G²，显著提升GUI智能体定位性能
OpenAI IMO金牌团队爆料：AI拒绝作答第六题
特斯拉车祸，被判赔偿超 2 亿美元；传 OpenAI 将推 10 美元「亲民订阅」；影石刘靖康：祝贺同行大疆推全景相机
GPT-5难产内幕曝光！核心团队遭挖空，推理魔咒难破，靠英伟达续命
哥大学生全员AI作弊？小哥「创业逆袭」：不用AI等于输在起跑线！
Hinton预言成真，美国大学生掀起本科辍学潮！月入万刀修马桶，不怕AI裁员
天才美少女的开挂人生，首次揭晓！11岁自学微积分，17岁推翻40年难题
GPT-5难产，外媒爆料：性能提升不大，OpenAI高管Slack上当众破防
19岁小哥伯克利辍学创业，获2800万美元融资，OpenAI投了
ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法
刚刚，谷歌「IMO金牌」模型上线Gemini，数学家第一时间证明猜想
一个模型超了DeepSeek R1、V3，参数671B，成本不到350万美元
多模态后训练反常识：长思维链SFT和RL的协同困境
库克打气苹果 AI：不拼首创，自信能主导市场；微信提现手续费下调至 0.01 元；Manus 推 Wide Research
微软破4万亿，被裁员工扎心！70级工程师天价薪酬曝光：入职大礼包2700万
港科大发布「大模型越狱攻击」评估基准，覆盖37种、6大类别方法
刚刚，OpenAI神秘开源模型泄露！「闪现」1分钟被删，配置被网友扒光
24岁辍学博士，小扎捧2.5亿薪酬包亲自上门抢人！AI顶薪已让NBA汗颜
奕派科技重磅发布“未来之翼”战略，2026款东风奕派eπ008限时先享价17.36万元
一切竞争，都变成了「AI 竞争」
途深智合推出旗下AI科研品牌--追梦AI
模型共享、数据互通、设施互连，上海人工智能实验室上线「书生」科学发现平台
一次中稿10篇ACL25，通义实验室代码智能&对话智能团队在研究什么
联合三大蛋白质模型，仅需4~6周，定制癌细胞特效「识别器」
全球首款通用AI科研智能体问世：我一个文科生用它写了份CRISPR基因编辑综述报告
中国在AI领域超越美国已是板上钉钉？吴恩达：美国无法保持领先
驯服复杂表格：九天重磅开源，开启「人与表格对话」智能新时代
思维链监督和强化的图表推理，7B模型媲美闭源大尺寸模型
超聚变亮相WAIC 2025 重构数智化平台，共建智能体时代
Manus大升级，100多个智能体并发给你做任务
挖人上瘾的Meta又被员工吐嘈：不帮忙宣传项目，开源只会越来越糟
机器人不只会抓和放！北京大学X银河通用「世界-动作模型」赋能全面泛化的非抓握技能
火山引擎作为「AI 原生」基础设施，变得更强了
英伟达回应「芯片后门」：不存在后门；大疆推 Osmo 360 全景相机，2999元；微软成第二家 4 万亿美元公司
WAIC唯一指定C位，AI「国家队」又赢麻了！秒懂Hinton伦敦腔，现场杀疯老外狂点赞
首部法律LLM全景综述发布！双重视角分类法、技术进展与伦理治理
小扎一夜反水，背刺开源！亲手葬送「Llama神话」，股价大涨12%
GPT-5发布倒计时？全网泄露来了：微软Copilot憋大招，GPT-5上线最后冲刺！
17.98 万的乐道 L90，有多少蔚来的诚意，就有多少李斌的「求生欲」
ACL'25最佳论文独家解读：大模型有「抗改造」基因，现有后训练范式失灵预警
当提示词优化器学会进化，竟能胜过强化学习
ACL 2025主会论文 | TRIDENT：基于三维多样化红队数据合成的LLM安全增强方法
谷歌发布AlphaEarth基础模型：构建「地球版ChatGPT」，融合多源数据，实现10米级地球观测
微软花重金做的Copilot，居然被WPS一个按钮给秒了?
定义科学智能2.0：在WAIC，复旦与上智院的答案是开放协作、科学家为中心，以及一个「合作伙伴」
OpenAI提出的CLIP，被Meta联合谢赛宁、刘壮，扩展到全球300+语言
VLA-OS：NUS邵林团队探究机器人VLA做任务推理的秘密
XREAL One Pro 体验：AR 老炮的自我革命
WAIC UP! 之夜：一场关于AI与人类未来的星空思辨
AI 智能体，让每个人可以像科学家一样工作和思考
刚刚，扎克伯格公开信：Meta不会开源全部模型
没敲过代码的我，半小时「聊」出一个能用能分享的「小程序」
把指纹焊死在频率上：抗微调神经网络指纹的硬核方案来了
32.18万起！理想i8正面「硬刚」特斯拉Model X
智能驾驶最大的障碍，不是懂车帝
刚刚，DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文
小米青年公寓正式启用，1999 元/月；Meta AI 数据中心投入 720 亿美元；NBA 引入「AI 篮球」
AI百人榜刷屏，小扎照单全收？辛顿Ilya师徒霸榜，第二名竟是本科生
炮轰黄仁勋，决裂奥特曼！1700亿美元估值背后，硅谷最不好惹的AI狂人
别只盯着李飞飞！AI的「3D数据底座」已被这家中国公司悄悄建好
无需准确传感信号！轻松搞定「多段软体机械臂」复杂位姿与形状控制
Nature 子刊 | DeepSeek落户超750家医院，清华团队剖析AI医疗监管隐忧
P图手残党有救了，豆包·图像编辑模型3.0上线，一个对话框搞定「增删改替」
开出10亿美元天价，小扎挖人Mira创业公司惨遭拒：俺们不差钱
当智能成为主要生产资料，硅基经济学引爆「AI+金融」
SPIRAL：零和游戏自对弈成为语言模型推理训练的「免费午餐」
刚刚，OpenAI推出学习模式，AI教师真来了，系统提示词已泄露
凌晨，Qwen又更新了，3090就能跑，3B激活媲美GPT-4o
AI安全上，开源仍胜闭源，Meta、UCB防御LLM提示词注入攻击
字节辟谣「豆包汽车」：无造车计划；英伟达市值突破4.3 万亿美元；传特斯拉将推「低价赛博皮卡」
科学能力太强，这个多模态推理「六边形战士」被严重低估！Intern-S1开源登顶
全球首次，「AI记忆」开源落地！MIRIX同步上线APP
GPT-5基准测试泄露，被曝两天后发布？打Minecraft震撼开挂网友直呼封神
马斯克偷偷憋了个大招！Grok秒出《阿凡达》画质，好莱坞瑟瑟发抖？
理想i8正式发布：首款纯电SUV，售价32.18万元起
WAIC 2025大黑马，一个「谢耳朵AI」如何用分子式超越Grok-4
通义实验室大火的 WebAgent 续作：全开源模型方案超过GPT4.1 , 收获开源SOTA
这家国内公司，在给具身智能技术栈做「通解」
ACL首届博士论文奖公布，华人学者李曼玲获荣誉提名
全球首个全链式空间天气AI预报模型“风宇”！国家卫星气象中心牵头，联合南昌大学、华为共同研发
LeCun出手，造出视频世界模型，挑战英伟达COSMOS
联合十余家国产生态，商汤大装置发布“算力Mall”，打造算力超级市场
用说的就能做 App，这家公司想做 AI 时代的 ins
从数字人到「有温度的」机器人，京东把 AI 深度应用的路线图「摸透」了
开启RL Scaling新纪元，siiRL开源：完全分布式强化学习框架，支持超千卡规模高效训练
共青年之智，铸AGI未来｜2025 WAIC云帆奖得主名单揭晓
阿里再开源，全球首个MoE视频生成模型登场，电影级美学效果一触即达
不靠海量数据，如何精准喂养大模型？上交Data Whisperer：免训练数据选择法，10%数据逼近全量效果
WAIC2025，斑马智行元神AI获国际测评机构全项第一
蛋白质基座的GPT时代来了？AMix用Test-time Scaling让蛋白质设计迈向通用智能
Allegro-FM：剑指分子动力学基础模型，零样本预测89种元素及复杂反应
AI 上新｜不会用 PS 的我，却敢去小红书上接「设计单」了
GMI Cloud 于 WAIC 2025 展现全栈 AI 基建实力，破解出海成本与效率难题
WAIC 2025: 斑马智行元神AI大模型，获全球机构测评第一
国内首例！由钉钉AI平台训练的豆蔻大模型通过妇产科主任医师考试
闭幕式 | 2025世界人工智能大会暨人工智能全球治理高级别会议成功举办
智谱发布新一代基座模型GLM-4.5：开源、高效、低价，专为智能体而生
AI Agents的“超级大脑”来了阿里云正式发布无影Agentbay
WAIC 2025前探：AI硬件如何改变我们的日常生活
这届WAIC，无问芯穹发布了三个「盒子」
「幻觉」竟是Karpathy十年前命名的？这个AI圈起名大师带火了多少概念？
EvaLearn：AI下半场的全新评测范式！
蚂蚁数科发布金融推理大模型助力金融机构加速落地智能体应用
2025 WAIC容联云AI AGENT论坛启幕，以技术引擎驱动产业智能跃迁
商汤大装置亮相WAIC 2025，多项标志性成果打造AI基础设施新范式
广大、清华等开发EdgeAIGC，让边缘缓存命中率飙升41%，AIGC延迟与成本双降
WAIC直击｜快手可灵AI引领「生成式AI应用元年」，累计生成超2亿视频
硬核「吵」了30分钟：这场大模型圆桌，把AI行业的分歧说透了
ICCV 2025｜UV-CoT：无监督视觉推理新突破，偏好优化重塑图像级思维链
扣子开源全家桶，Apache 2.0加持，AI Agent又一次卷到起飞
多模态大模型，真的「懂」世界吗？——揭秘 MLLM 的核心知识缺陷
具身智能，腾讯「低调入局」
首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练
特斯拉廉价 Model Y 减配内饰曝光；Firefox 终止中国账户运营；宇树王兴兴：经常偷懒，用 AI 写代码｜极客早知道

通向L3的正确范式？理想i8全球首发VLA高阶辅助驾驶，我们帮你试了试

2025-08-02机器之心来源

VLA「司机大模型」问世。

本周二，理想全新纯电 SUV 理想 i8 正式上市，其搭载的全新一代 VLA 辅助驾驶系统立刻引起了人们的关注。

作为全球第一个展示 VLA 辅助驾驶范式的车企，理想应用基于视觉-语言-行为大模型、新一代英伟达 Thor-U 芯片和禾赛 ATL 激光雷达的 VLA 司机大模型，让新车型的辅助驾驶能力实现大幅提升。

在理想 i8 发布之前，工程师向我们分享了他们基于最新 VLA 模型的辅助驾驶技术以及研发历程。

全球范围内，辅助驾驶系统刚刚经历了从无图智驾到端到端范式的革新，不过理想在大规模实践后认为，面向 L3，系统架构还需要再次演进。

自去年端到端辅助驾驶上线后，理想落地技术的 MPI（接管里程）水平在近 12 个月以内提升明显。自去年 7 月份开始小规模内测时，端到端辅助驾驶的成绩是十几公里，到今年 2 月上线 1000 万 clips 的版本之后，MPI 做到了 100 公里，7 个月翻了 10 倍。

然而在 1000 万 Clips 的成绩过后，只增加数据量带来的提升变得有限，有价值的训练数据也越来越少。理想尝试了「超级对齐」，通过后处理、一定的规则机制来规范模型输出效果，使之符合人类需求。与此同时，理想提升了筛选数据的标准，今年 3 月到 5 月，模型性能提升在两倍左右。

理想发现，端到端的方法如果只通过数据驱动升级会存在边际效应。无论如何配比数据都会面临难以克服的挑战，如会出现违反常理的行为（缺乏对于场景的理解）；开车不够聪明（决策没有深度思考）；行驶时让人类感觉安全感不足（没有根据场景做出「预防性驾驶」）等问题。

事实证明，「模仿学习」的路线不具备深度的逻辑思维能力。

去年，理想工程师开始试图在需要深度决策时为 AI 模型中加入更多推理能力。但当时基于 VLM 的推理速度很慢（当时为 2-3Hz），它也不能理解在执行任务的中间接受由人类提出的新指令。

在基于 VLA（Vision Language Action）架构的辅助驾驶方案中，最大的改进在于使用、依靠大模型的语言智能提供决策能力——空间智能的输入会转化成语言智能的理解表达编码，最后形成动作指令。

也正是因为这样的架构变化，与目前 AI 领域的深度思考大模型类似，辅助驾驶系统拥有了很强的可交互能力。VLA 在使用上最明显的变化是：假如人类在中间有指令（Prompt），可以随时更改 AI 做出的决策。VLA 天生可以听懂人类的指令，并按照人类的指令来完成任务。

比如你可以直接跟 i8 说话，「理想同学前进 5 米」，它就会开出准确的 5 米距离。

VLA 在运行时会把看到的整个环境总结成语言，然后形成类似于人的思考。可以看到，在辅助驾驶开启的过程中，系统会把传感器传来的视频信息转化为文本再进行推理，目前可以实现的速度是 10Hz。

除了对现实世界的充分理解之外，VLA 辅助驾驶还带来了更好的平顺性。过去的端到端辅助驾驶上，AI 对于车辆操作的 Action 是生成轨迹点，然后连接点进行近似平滑的方式；现在模型做出的推理是由 Diffusion 生成的光滑轨迹。从实际驾驶体验上看，现在开车动作会更加丝滑，动作调整会变少，体验会更好。

此外还有驾驶风格的改进：在上代辅助驾驶，理想更多参考的是「老司机」提供的数据，这一代则更多是在模仿「专车司机」，更加稳健的风格会受到更多人欢迎。

总结一下，VLA 范式的特点包括：

思维推理能力，利用 CoT（Chain of Thought，思维链）的推理，系统能够充分理解和感知环境，并由此生成驾驶决策；
沟通能力，可以和驾驶者使用自然语言无缝交流，开快点、开慢点、左转、右转、超车等基本操作都可以；
记忆能力，开到某一条路上，你可以跟大模型说「以 ×× 公里速度行驶」，下一次来到同样的道路，车辆可以记住上一次的设置；
自主学习的能力，VLA 通过仿真环境自我迭代和提升，其中用到了大量生成数据。

简单来说就是「能思考、能沟通、能记忆、能自我提升」。在全面架构升级后，第一版 VLA 的体验相比端到端辅助驾驶的最新版本已有不小的提升。

基于 VLA，理想希望能够面向更广泛的用户群体提供一个「私人司机」。VLA 司机大模型将为用户带来驾驶体验的一系列升级。例如，VLA 辅助驾驶已经学会了防御性驾驶，区别于「遇到丁字路口就刹车」的决策，VLA 能够通过推理分析出道路上存在的盲区，从而提前刹车预防潜在的碰撞风险。

在狭窄的道路上，车辆也可以自行多次倒车调头。

理想汽车的辅助驾驶研发历程自 2021 年开始，从最初的 BEV 方案到无图辅助驾驶再到 2024 年开始落地的端到端架构，技术架构已经历了多轮的迭代。

截止目前，理想已经积累了 43 亿公里用户智驾总里程，其用户规模总计 134 万辆，理想为智驾算法准备的云端算力总计已达 13EFLOPS。

数据方面，理想自 2020 年开始收集数据进行迭代。到今年 7 月份已经累计了 12 亿公里的有效数据。理想积累了大量不同环境下的数据，并进行分类，例如不同天气、时间段、道路类型、车道路口类型、交通状况、目标车的场景、自车行为、合规行为、接管类型等维度。

「大家都可以做到 1000 万 clips，这可能等于 1000 到 2000 万公里的数据，但问题在于你是否能够构建出有价值的数据。我们针对长尾场景采用数据合成的方式，让场景分布更加均衡，才获得了一些性能提升，」理想汽车智能驾驶研发副总裁郎咸朋博士说道。「在一些难以获取数据的长尾场景上，我们更多地使用生成数据来进行训练。」

今年 2 月份起，理想调整优化了端到端模型的训练数据。通过世界模型负责场景的重建和生成，根据真实数据「举一反三」以提升 VLA 应对复杂场景的能力。

比如「高速 ETC 收费站」，同样一个地点可以生成不同天气、不同时间的场景。有些 corner case 危险场景的数据，也可以通过世界模型生成出来。

算法方面，理想的核心能力在于算法效率高，以及强化学习的应用。李想此前提到过，VLA 大模型生成需要五步。理想构建了 MindGPT 基座模型，经过后训练、RLHF（基于人类反馈的强化学习）、强化学习、构建 VLA 司机智能体几步实现了辅助驾驶系统。

在后训练过程中，VLA 模型在世界模型中进行仿真测试，世界模型生成「真题」（完全复现）和「模拟题」（新的场景）。所有条件完全可控，测试周期大幅缩短，成本降低，可以实现天级发版。理想甚至表示，「实际上版本迭代的速度只取决于显卡的数量。」

虽然显卡的价格很贵，对比极为耗费人力的实车测试，这样做不仅让成本大幅降低，辅助驾驶效果也可以持续提升。也正是因此，理想的辅助驾驶测试里程从 2023 年的实车测试 157 万公里，每公里成本 18.4 元，2024 年实车测试 122 万公里，仿真测试 514 万公里，每公里成本 4.84 元，进化到了今年截至 6 月 30 日的实车测试 2 万公里，仿真测试 4009 万公里。目前每公里成本只用 0.53 元。

在工程能力方面，理想着力进行了模型量化，并提升部署效率。在 Thor-U 上部署的 4B 模型进行了 FP8、INT8 量化，在「旧版」硬件车辆的 Orin-X 上也能部署。预计在未来，通过 FP4 精度的推理，Thor-U 搭载芯片车辆的算力可实现翻倍，为 VLA 模型释放更大的算力空间。

最后还有 One more thing：在北京的理想总部，目前已经有正在运行的 MEGA Home 接驳车，可以实现全区域（包括地下停车场）的巡游。

理想基于世界模型，为自家总部构建了一个 1×1km 的完全仿真环境。作为庞大 3D 资产的集合，其中的每个交通参与者都重建了 3D 模型，并作为智能体有自己的行动逻辑，完全模仿真实的物理世界。理想表示，车辆在其中运行，训练速度会是真实世界训练速度的很多倍。

上一代技术能力的上限，是下一代技术能力的起点，未来 VLA 技术的迭代速度还会再次加快。理想表示，一年后大家看到一个 MPI 在 1000km 的辅助驾驶系统，就会真正相信智能驾驶快要到来了。

]]>

动态列表

通向L3的正确范式？理想i8全球首发VLA高阶辅助驾驶，我们帮你试了试

类别

资源

联系我们