动态列表

谷歌Veo 3论文竟无一作者来自美国！揭秘零样本「看懂」世界
零样本「即插即用」！智源开源RoboBrain-X0，一个基座模型开动不同机器人
AI老司机现身重庆！徐峥挑战赛车手，上演「不再囧途」
强化学习之父给LLM判死刑！站队LeCun：我们全搞错了
4B逼近DeepSeek-R1！Bengio团队「递归聚合」刷新小模型上限
KDD 2025 | 看不见也能控：用“基混杂向量”打穿分布移位，交通预测稳了
北京内推 | 快手可灵AI技术部招聘视频生成/数字人方向算法实习生
在云栖，我们遇见了最会玩的「AI 原住民」
NeurIPS 2025 | Seg4Diff：无需分割头，揭示并放大扩散Transformer中的涌现分割能力
NeurIPS 2025 | UniPixel：首个统一对象指代与分割的像素级推理框架，让大模型看懂每一个像素
做 AI 陪伴收获 1000 万用户后，前微信 AI 产品负责人，要重新定义生活里的 AI
透视阿里云产品生态团队：AI 落地的「关键通道」
OpenAI「降配门」发酵，偷换模型遭全网实锤；小米 SU7 在日本首秀；苹果内部测试类 ChatGPT 应用｜极客早知道
OpenAI「GPT门」事件引爆！Plus、Pro账户统统降配，偷换模型全网实锤
突发，普林斯顿CS博士后猝然离世！清华本科毕业，刚完成论文答辩
国内首次！8.9毫秒推理速度破纪录，1元打穿百万token
惊现高管离职潮！马斯克亲信操盘xAI，千亿美元能填AGI野望？
黄仁勋2小时反驳「AI泡沫帝国」论！英伟达将成全球首家十万亿市值公司
云与AI，如何托举 Z 世代的创新野心
NeurIPS 2025 | 我奶奶都能复现？条件表征学习：矩阵一乘，表征立马“对齐”！
8GB显卡的逆袭！SSD换显存，3060 Ti硬跑100k长上下文
北京/杭州内推 | 阿里通义实验室招聘多模态大模型与智能体方向算法实习生
NeurIPS 2025 | 北大等提出C²Prompt：解耦类内与类间知识，破解联邦持续学习“双重遗忘”难题
InterDigital开源CompressAI-Vision：为“AI看”的视频压缩，打造一个“通用跑分平台”
24.98万的理想i6，在特斯拉、小米、蔚来「后院」放了一把火
小米 17 开售 5 分钟，破国产机销售纪录；Meta 研发机器人项目；国内发布「脑机接口标准」
Stability AI前CEO惊人预测：人类智力价值归零，只剩1000天！
刚刚，奥特曼预言：人类「只剩」最后5年！
免训练加速61倍！陈怡然团队新作DPad：仅关注「彩票token」
估值840亿AI实验室再放大招，他们要给大模型戴上「紧箍咒」
苹果掀桌！扔掉AlphaFold核心模块，开启蛋白折叠「生成式AI」时代
自动驾驶进入大模型时代，主机厂寻找「联合创始人」
复旦等揭秘机器人“大脑”安全漏洞：一张图就能让它“宕机”，攻击成功率76.2%
DASFAA 2025 | 湖大等提出SCRA-VQA：给LLM一份“精装修”的图像描述，无需训练提升VQA性能
苹果官方旗舰店也放假，商品不发货；腾讯推「老年打车」服务；车主酒驾，智能驾驶「报警」｜极客早知道
刚刚，ChatGPT Pulse上线！私人秘书不再是富人特权
颠覆算力格局！全球首个星座级太空AI算力服务，在中国诞生
OpenAI 3万亿美元测试，AI首战44个行业人类专家！
JHU教授揭秘学术潜规则：普通博士如何打破鄙视链翻盘？
Hinton预言错了！年薪狂飙52万美元，AI没有「干掉」放射科医生
168 元一年的「小红卡」，是小红书打破本地生活红海的钥匙
当 5 亿玩家涌入 AI 的 3D 新世界
普林斯顿陈丹琦组新作：RLHF难支撑，RLVR有边界？RLMT开辟第三条路
128k死穴被击穿！Amazon爆改长上下文：段内压缩快4×，推理不掉点还更准
博士申请 | 香港中文大学（深圳）冀晓强老师课题组招收人工智能全奖博士/硕士
AI 到底会不会做生意？1688 的答案让人惊喜
找人不求人？Lessie 让「人脉玄学」变成算法游戏｜AI 上新
斯坦福推出VisualMimic：让机器人“眼观六路”，零样本完成复杂任务
浙大发布RS3DBench：让遥感AI看懂3D世界，首个像素级对齐的大规模基准来了！
小米 17 系列发布，4499 起；追觅「库里南」图片曝光；YU7 Max 成「百万最速」车
刚刚，LeCun团队开源首款代码世界模型！能像程序员一样思考的LLM来了
AI正在偷走白领工作！OpenAI狂砸10亿教AI上班，你的完美继任者即将上岗
Sora 2瑟瑟发抖！通义万相2.5放大招：一句话出1080P电影，音画精准同步
信息熵之后，清华提出状态熵！量化分析「系统智能性」的全新视角
突发！Meta刚从OpenAI挖走了清华校友宋飏
北京内推 | 中科院软件所数据科学研究中心招聘大语言模型算法实习生
78条打穿1万条！上交大新范式告诉你：智能体训练靠“质”，不是靠“量”
KV缓存不再爆！清华姚期智团队重写注意力维度，长上下文更省更强 | NeurIPS 2025 Spotlight
三款骁龙芯片曝光，高通谷歌联手打造「安卓 PC」时代
Instagram 月活破 30 亿，靠“短视频”和“私信”；2027款iPhone曝光；女子用ChatGPT选号中百万大奖，全部捐出
一年4次迭代，狂堆GPU成真！微软AI冷液灌芯，散热暴涨3倍
刚刚，阿里CEO吴泳铭发布「ASI宣言」：超级智能才是终局！
前Meta工程师爆料：17人团队15个H-1B！一夜之间80%对手没了？
秘塔AI放大招！「边想边搜边做」，内置20+智能体，想法一键实现
震撼！AI物理「双修」：亥姆霍兹方程嵌进生成器，伪影当场消失
恶劣天气下的图像修复：南理工等提出LCDiff，让AI在雨雪雾天也能看得清
OCRBench v2 25年9月最新榜单发布！揭示多模态大模型文档智能真实水平
RL不再撒胡椒面！港科大 × 清华新作：只盯“规划token”，大模型推理力狂飙
NeurIPS 2025 | 甩掉文本CoT！FSDrive开启时空思维链，自动驾驶迈入视觉推理时代
博士申请 | 加拿大麦吉尔大学智能自动化实验室招收大模型/强化学习方向全奖博士生
3 天卖完今年所有产能，蔚来全新 ES8 如何实现逆风翻盘？
超越 AGI，阿里剑指「超级智能」
Point-SSM：一种用于点云分析的极简状态空间模型，在医学点云任务上表现SOTA
字节跳动OmniInsert炸场：无需掩码，任意物体“贴”进视频，效果碾压闭源SOTA！
ContextFlow：无需训练的视频编辑新范式，实现电影级魔改！
忘了法拉利，一辆中国车正在改写游戏规则
40亿投进去，换回了什么？全新问界M7的「值得」哲学
华为问界新 M7，1 小时大定 3 万；李想：iPhone 17 顶配太丑，不买；防台风，腾讯「捆绑」QQ 企鹅塑像
一半人明天不上班，GDP不会掉一点！耶鲁大学揭AGI残酷真相
告别胶水代码，5倍飚速！无问芯穹首次揭秘，Infra智能体蜂群登场
Depth Anything再出新作！浙大 & 港大出品：零样本，优化任意深度图
H-1B「天价签证」引爆恐慌！印裔精英返乡梦碎，2800亿市场剧震
突发：甲骨文CEO下台！刚和OpenAI签下3000亿美元大单，或因路线斗争
年轻一代创作者，学会与 AI 共舞
MiniCPM-V 4.5技术报告正式出炉！首个高刷视频理解多模态模型全解析
KDD 2025 | 从个股偏离到市场共振：UMI挖出股市非理性因子，显著提升预测精度
一套框架搞定图像定制！IC-Custom统一「位置相关/无关」，万物迁移真落地
北京内推 | Apple中国招聘机器学习/AI方向研究型实习生
Yann LeCun团队新作LLM-JEPA：结合联合嵌入预测架构，显著提升大模型微调性能与效率，在代码生成任务上表现卓越
TPAMI | 数据增强还在“盲操”？南大提出IPF-RDA，让模型训练告别信息丢失
SilentStriker：无声击溃大模型
小米 17 系列手机官宣 9 月 25 日发布；iPhone 17 标准款需求超预期，苹果已增产；罗永浩再回应债务问题：个人债务五年前就还完了，后面是主动还的公司债务｜极客早知道

独家！DeepSeek最新模型上线，全新注意力机制基于北大ACL最佳论文

2025-09-29未知作者来源

新智元报道

编辑：好困定慧

【新智元导读】DeepSeek最新模型V3.2-Exp发布，推出全新注意力机制DeepSeek Sparse Attention(DSA)，训练推理提效的同时，API同步降价达50%以上！

一图看透全球大模型！新智元十周年钜献，2025 ASI前沿趋势报告37页首发

刚刚，DeepSeek最新模型上线！

代号DeepSeek-V3.2-Exp，被DeepSeek誉为最新的实验性模型！

这次V3.2主要基于DeepSeek-V3.1-Terminus，并且首次引入「DeepSeek稀疏注意力」（DeepSeek Sparse Attention，DSA），在长上下文上实现更快、更高效的训练与推理。

值得注意的是，这是第一个用「DeepSeek」品牌命名的关键技术（注意力机制）！

我们注意到，DSA正是此前与北大合作、梁文锋署名的那篇ACL 2025最佳论文中，原生稀疏注意力（Native Sparse Attention，NSA）的改进。

技术报告里的引用

全新注意力机制

DeepSeek-V3.2-Exp的核心武器「DeepSeek稀疏注意力」，首次实现了细粒度稀疏注意力机制，在几乎不影响模型输出效果的前提下，实现了长文本训练和推理效率的大幅提升。

论文地址：https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

与之前模型最大的不同是，DSA不再让每个Token关注序列中的所有其他Token，而是引入了一个名为「闪电索引器」（lightning indexer）的高效组件。

这个索引器能以极快的速度判断，对于当前正在处理的Token，序列中哪些历史Token是最重要的。

随后，模型只从这些最重要的Token中选取（Top-k）一小部分（例如2048个）进行精细计算。

如此一来，核心注意力的计算复杂度就从O(L²)骤降至O(Lk)，其中k是一个远小于L的固定值。

这在处理长文本时，无疑带来了巨大的效率提升。

更关键的是，这种效率提升并非以牺牲性能为代价。

在DeepSeek-V3.1的基础上，团队先用一个简短的「密集预热」阶段来初始化闪电索引器，让它学会模仿原有模型的注意力分布。

随后进入「稀疏训练」阶段，让整个模型适应新的稀疏模式。

最后，再沿用与前代模型完全相同的后训练流程，包括专家蒸馏和混合强化学习（GRPO）。

为了严谨地评估引入稀疏注意力带来的影响，DeepSeek特意把DeepSeek-V3.2-Exp的训练设置与V3.1-Terminus进行了严格的对齐。

DeepSeek-V3.2-Exp的架构图，其中DSA在MLA下实例化。

评估结果显示，无论是在短文本还是长文本任务上，DeepSeek-V3.2-Exp的性能与它的「密集注意力」前身V3.1-Terminus相比，都没有出现实质性的性能下降。

与此同时，在实际部署的推理成本测试中，其端到端的加速效果和成本节约非常显著。

虽然DeepSeek-V3.2-Exp目前还是一款实验性模型，但它所展示的「性能不降、成本骤减」的特性，为大模型突破长文本瓶颈，指明了一条充满希望的工程路径。

价格更便宜

DeepSeek再一次把模型价格打了下来！

得益于新模型服务成本的大幅降低，官方API价格也相应下调，新价格即刻生效。

在新的价格政策下，开发者调用DeepSeek API的成本将降低50%以上。

目前API的模型版本为DeepSeek-V3.2-Exp，访问方式保持不变。

最后，不得不说，这次DeepSeek太仁慈了，「发布节奏」真的听取了网友的建议，给众多AI界的朋友们放个好假！

参考资料：

https://api-docs.deepseek.com/zh-cn/news/news250929

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652631126&amp;idx=1&amp;sn=d9a3500b4f08a1a96474e1ba4042d98f&amp;chksm=f03721dcfa1c8457c41b12c2f652d4e1ec8ac44a4670f4fd1ef03c83179e8660007b3a91100e&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/DlM7Vo4Zhj&amp;maxage=1y"  width="1px"></div></div></body></html>

动态列表

独家！DeepSeek最新模型上线，全新注意力机制基于北大ACL最佳论文

新智元报道

【新智元导读】DeepSeek最新模型V3.2-Exp发布，推出全新注意力机制DeepSeek Sparse Attention(DSA)，训练推理提效的同时，API同步降价达50%以上！

类别

资源

联系我们