动态列表

  • ACL最佳论文幕后的北大人!北大张铭带出顶会常胜军和百亿CEO天团|新智元十周年峰会
  • 刚刚,这款Agent浏览器力压OpenAI,72%成功率全球第一!还能免费用
  • =COPILOT()函数横空出世!AI自动写公式效率起飞,网友:让Excel再次伟大
  • 当智能醒于物理世界,英伟达副总裁: 下一个十年属于物理AI!|新智元十周年峰会
  • 00后挑大梁!近20国选手激战外滩大会,AI科创赛三赛道冠军诞生
  • CoRL 2025 | 港大InfoBodied AI团队首发具身表征新范式,构建任务自适应的感知框架
  • 英伟达下一代GPU登场,Rubin CPX一次推理数百万Token,网友:这是头野兽
  • 谷歌AI新里程碑:一个能「做研究」的系统诞生了,用LLM+树搜索编写专家级软件
  • 爱诗科技完成6000万美元B轮融资,阿里巴巴领投,达晨财智、深创投、北京市AI基金、巨人网络、Antler等跟投
  • 当人工智能「看见」量子世界:AI如何改变对复杂量子系统的认知,南洋理工、上交等发布量子系统学习综述
  • DeepSeek、Gemini都不行?AgenTracer锁定多智能体“背锅侠”,8B小模型反超闭源巨模
  • 北京内推 | AMD北京AI算法团队招聘模型量化/剪枝算法实习生(可远程)
  • SFT真不如RL?MIT团队抛出“RL的剃刀”,砍掉遗忘直通终身学习
  • 院士领衔!从智能算网到司法AI:顶尖学者直播解读AI与工程前沿趋势
  • AI应用元年,这场标杆赛事见证了中国创新速度与野心
  • AI胡说八道这事,终于有人管了?
  • 人人都能炼专属Agent,上海交大开源端侧Agent全栈工具链,真实场景性能超GPT-5!
  • TPAMI 2025 | H2OT:分层沙漏型Tokenizer,重塑高效视频姿态Transformer
  • 苹果发布会:耳机测心率、手表听音乐、iPhone Air超级薄
  • 不到10天,国产「香蕉」突袭!一次7图逼真还原,合成大法惊呆歪果仁
  • 再也不怕面瘫脸!YouTube黑科技:AI帮你「永久微笑」,连僵尸都咧嘴笑
  • OpenAI真正王牌,不是Ilya!刚刚,奥特曼罕见致谢这两人
  • 缔造OpenAI的秘密,竟只有一个词!新智元十年峰会圆桌,七位大咖激辩
  • Hinton预言失灵?掌握AI技能涨薪23%,比读硕士更赚钱
  • 文心新出的推理大模型,给了我们信心
  • SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门
  • 从第一性原理出发的RAG推理新范式来了,蚂蚁DIVER登顶权威基准
  • 击败多个行业巨头,优必选自研人形机器人最强大脑 Thinker 斩获全球四项第一
  • 字节跳动发布 Seedream 4.0 图像创作模型,豆包、即梦可免费体验
  • 从科幻到产业元年 | 「脑机接口」系统综述发布:全景解析理论、技术、挑战、趋势
  • 硅谷也996实锤了?AI的火,烧掉了硅谷的周末
  • DPad: 扩散大语言模型的中庸之道,杜克大学陈怡然团队免训推理加速61倍
  • Altman亲自发博客点赞,这两大杰出人才是谁?
  • 自变量机器人完成近 10 亿元 A+ 轮融资,多元资本押注共同布局具身智能未来
  • 不止综述!多模态大模型持续学习全链路:Benchmark、方法与Codebase一网打尽
  • 科研实习 | 北京大学计算机学院潘亮铭老师课题组招收NLP/大模型方向科研实习生
  • ICML 2025 | 别再只拼CoT了!不完备信息下的主动推理,LLM普遍掉线
  • 报名启动!西湖大学云谷青年学者论坛·人工智能分论坛诚邀全球英才
  • 时空壶发布 W4:用「硬核」技术,打赢一场 AI 翻译的「标准」之战
  • Science | 西奈山伊坎医学院新AI算法为1600种变异定量「风险」,解析疾病外显率难题
  • TPAMI 2025 | IGEV++:迭代多范围几何编码,刷新立体匹配技术新高度
  • 原来你是这样的外滩大会!
  • 小米通报王腾因泄密被辞退,本人发微博回应;传 IPO 估值 500 亿,宇树回应 ;辛顿自曝被女友用 AI 分手 | 极客早知道
  • Hinton自曝:前女友提分手,用ChatGPT列出自己「七宗罪」
  • 从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述
  • 字节Seedream 4.0将全量开放!抢先评测来了,我们摸索出AI生图20种「邪修」玩法
  • 全球图生视频榜单第一,爱诗科技PixVerse V5如何改变一亿用户的视频创作
  • 扎克伯格的豪赌初见成效?Meta新方法让LLM长上下文处理提速30倍
  • 具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
  • 上海AI Lab重磅综述:AI实现自主科学发现时代已经到来
  • 6 个月估值暴涨 5 倍突破 100 亿美元,三个「00后」逼急 Scale AI
  • Focal Loss也能无监督?北大×港中文团队用“双重不确定性优化”提升鲁棒3D感知
  • 给RL装上“防抖器”!GRPO稳化版来了:更高熵、更低KL、更稳更新
  • 深圳内推 | 腾讯音乐天琴实验室招聘音乐生成算法研究员(社招/校招)
  • 导师放养真的会毁掉一个人……
  • 上汽通用五菱与华为深化合作,推出首款车型宝骏华境S
  • IEEE TPAMI | M²Diffuser: 让机器人学会“脑补”,在复杂3D场景中实现精准移动操作
  • 国行版苹果 AI 推迟至年底上线;视频平台广告被曝「偷时间」;美国计划限制进口中国无人机和重型载具 | 极客早知道|极客早知道
  • 16岁创业,22岁做成百亿独角兽!3位高中同学帮大厂训AI年入1亿美金
  • 《2025新智元ASI前沿趋势报告》全文
  • 一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
  • 苹果端侧AI两连发!模型体积减半、首字延迟降85倍,iPhone离线秒用
  • Claude不让我们用!国产平替能顶上吗?
  • SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃
  • 慕尼黑车展 2025前瞻:中国队组团出海,BBA 走向「新」时代
  • 国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
  • 斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出
  • 字节跳动Seed推出「机器人大脑」Robix:让机器人学会思考、规划与灵活互动
  • 浙大提出SSGaussian:注入语义与结构灵魂的3D风格迁移,让高斯溅射场景化身艺术品
  • 苹果 iPhone 17 系列规格已全被曝光;Anthropic 全面封杀中国公司接入;今夜将迎来「血月」月全食|极客早知道
  • OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首
  • 设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25
  • 谁不用谁亏!Karpathy吹爆GPT-5:10分钟编码完胜Claude一小时,奥特曼秒回感谢
  • 震撼实锤!清华姚班校友揭「1.4×加速」陷阱:AI优化器为何名不符实?
  • Anthropic被作家告了,违规下载700万本书,15亿美元和解了
  • 英伟达的局:狂撒15亿美元,从Lambda那租到了搭载自家AI芯片的GPU服务器
  • OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
  • 00后以1.1亿美金「掀桌」,硅谷AI将书写影视新传奇 终结制片旧时代
  • 任意骨骼系统的模型都能驱动?AnimaX提出基于世界模型的3D动画生成新范式
  • IEEE TPAMI 2025| PointGST:参数量仅0.67%,精度首破99%,三维点云处理迎来谱域新范式!
  • ICCV 2025 | MOSEv2 全新亮相,第七届 LSVOS 挑战赛正式开启!
  • 华为新问界 M7,6 小时订单破 13 万;等 eSIM,iPhone17 Air 首发无国行;特斯拉拟给马斯克 1 万亿薪酬
  • 力压哈佛MIT!北交大、清华勇夺2025国际大学生程序设计竞赛金牌
  • 长视频生成可以回头看了!牛津提出「记忆增稳」,速度提升12倍
  • 0.01%参数定生死!苹果揭秘LLM「超级权重」,删掉就会胡说八道
  • 今天,特朗普闭门宴请了大半个硅谷的CEO,马斯克老黄没来
  • 追觅给洗地机,加了一双「灵巧手」
  • 被网友逼着改名的谷歌Nano Banana,正在抢99%时尚博主的饭碗
  • 不止会动嘴,还会「思考」!字节跳动发布OmniHuman-1.5,让虚拟人拥有逻辑灵魂
  • 外滩大会主论坛阵容揭幕!顶级学者、产业领袖和青年创新力量共话未来
  • 第一家 AI 浏览器公司,卖了 43 亿!
  • Nano Banana爆火之后,一个神秘的「胡萝卜」代码模型又上线了
  • 透明度罕见!百川公开M2完整技术报告,强化学习新范式引发行业关注
  • 博士申请 | 香港中文大学(深圳)游宇宁老师招收人工智能+生物医药全奖博士/实习生
  • 推理加持的排序SOTA!把“召回+相似度”写进RL,文档排序更稳更准
  • KDD 2025 | 图异常基础模型来了:跨域零样本、少样本微调,原型残差全拿下
  • 沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了
  • 多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!
  • TPAMI重磅综述:一文读懂人类动作视频生成的五大阶段与三大多模态技术
  • 拓展天文学认知边界,Google DeepMind用AI助力LIGO,填补宇宙演化史缺失环节
  • 拍我AI限时免费6天!手办、宠物、奇幻创意随你生成不限次!
  • 传 DeepSeek AI 代理新模型年底发布;马斯克「金色擎天柱」首曝;比亚迪不回应销量下调传闻
  • 通用LLM压缩算法,居然藏视频编码里!2.5bit实现4bit性能,硬件无缝支持
  • 83岁用DeepSeek抢单,96岁凭AI挣养老钱!这群80+老人比你还会玩AI
  • 「纳米香蕉」LMArena两周500万投票,引爆10倍流量!谷歌、OpenAI扎堆打擂台
  • DeepSeek大招曝光?梁文峰督战超级智能体:能自主学习,或年底发布
  • 24999 元!华为推了一个「最大」的 Mate!
  • 刚刚,李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了
  • 又多了一个哄孩子AI神器,一张破涂鸦竟能秒变迪士尼动画
  • PosterGen:告别学术海报制作烦恼,从PDF一键生成「演示级」可编辑PPTX学术海报
  • 「一句话生成爆款视频」,这款 AI 流量神器有点东西|AI 上新
  • Claude Code凭什么牛?大模型团队天天用自家产品,发现bug直接就改了
  • 刚刚,OpenAI发布白皮书:如何在AI时代保持领先
  • 科研AI的进化论!系统梳理600+数据集与模型,上海AI Lab等发布科学大语言模型全景式综述
  • 腾讯 ARC Lab 开源 IC-Custom :一个强大且灵活的图像定制化工具!
  • 长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman
  • 全奖读AI!人工智能专业排名全球前10的MBZUAI启动本硕博项目招生
  • SIGCOMM 2025|重新定义个性化视频体验,快手与清华联合提出灵犀系统
  • 拜读了某大佬发表的N篇顶会,原来论文“灌水”是这么玩的
  • 北京内推 | 阿里夸克教育团队招聘推荐大模型数据算法实习生
  • 听见空间!ASAudio全景综述:空间音频表示→理解→生成全链路
  • 多模态大模型,真的“懂”世界吗?ICML 2025高分论文实锤核心认知盲区
  • 特斯拉下一代金色Optimus原型现身?一双「假手」成为最大槽点
  • 让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通
  • 传特斯拉 Model Y L 日均订单过万;苹果联手谷歌,Siri 整合 Gemini;优必选获 2.5 亿,全球最大人形机器人订单

刚刚,英伟达祭出下一代GPU!狂飙百万token巨兽,投1亿爆赚50亿



  新智元报道  

编辑:元宇
【新智元导读】昨天,英伟达重磅发布了专为海量上下文AI打造的CUDA GPU——Rubin CPX,将大模型一次性推理带入「百万Token时代」。NVIDIA创始人兼CEO黄仁勋表示,Vera Rubin平台将再次推动AI计算的前沿,不仅带来下一代Rubin GPU,也将开创一个CPX的全新处理器类别。

一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发

「百万Token怪兽」出世!

昨天,NVIDIA突放大招,推出了Rubin CPX,这是一款专为大规模上下文推理而设计的全新GPU。

它的性能,是Vera Rubin NVL144平台的2倍多,是基于Blackwell Ultra的GB300 NVL72机架式系统的7.5倍!

它具有单机架8 EFLOPS的NVFP4计算力、100TB高速内存与1.7 PB/s的内存带宽、128GB的高性价比GDDR7显存。

相比较NVIDIA GB300 NVL72系统,Rubin CPX带来了3倍的注意力机制处理能力。

性能巨兽,在变现能力上更是不容小觑。

每投入1亿美元,最高可以带来50亿美元的Token收入!


Rubin CPX
开创CPX全新处理器类别

Rubin CPX基于Rubin架构构建,是首款专为海量上下文AI打造的CUDA GPU,能够在同一时间推理跨越数百万个知识标记的模型。

可以说,Rubin CPX是专为破解AI「长上下文」瓶颈而生的「特种兵」。

的出现,为AI带来了百万Token级推理场景下的性能和效率的新突破。

依托于全新的NVIDIA Vera Rubin NVL144 CPX平台,Rubin CPX与NVIDIA Vera CPU和Rubin GPU紧密协同,可以支持多步推理、持久化记忆与长时程上下文,这让它在面对软件开发、视频生成、深度研究等领域的复杂任务时,更加游刃有余。

这也意味着在Rubin CPX的最新加持下,AI编码将从简单的代码生成工具,升级为能够理解并优化大规模软件项目的复杂系统。

同样,它还可以满足长视频与研究类应用领域,在数百万Token级别上保持持续一致性与记忆的需求。

这些需求,都在逼近当前基础设施的极限。

NVIDIA创始人兼CEO黄仁勋表示,Vera Rubin平台将再次推动AI计算的前沿,也将开创一个CPX的全新处理器类别。

「正如RTX颠覆了图形与物理AI一样,Rubin CPX是首个专为海量上下文AI打造的CUDA GPU,模型能够一次性跨越数百万个Token的知识进行推理。」


目前,Cursor、Runway和Magic等AI先锋企业,正在积极探索Rubin CPX在应用加速上的新可能。


30-50倍ROI
重写推理经济

Rubin CPX通过解耦式推理创新,可以企业带来30-50倍ROI,重写推理经济。

大模型的推理,主要分为上下文和生成两个阶段。

它们对于基础设施的要求,也存在着本质性的差异。

上下文阶段,以计算受限为主,需要高吞吐处理来摄取并分析海量输入数据,以产出第一个Token的输出结果。

而生成阶段,则以内存带宽受限为主,依赖快速的内存传输与高速互联(如NVLink)来维持逐Token的输出性能。

解耦式推理,可以让这两个阶段独立处理,从而更加针对性地优化算力与内存资源,提升吞吐,降低时延,增强整体资源的利用率。

但解耦式推理,也带来了新的复杂性层次,需要在低时延KV缓存传输、面向大模型感知的路由,以及高效内存管理之间进行精确协调。

这离不开NVIDIA Dynamo,它作为以上组件的编排层,发挥着关键作用。

Rubin CPX是专为大语言模型(尤其是百万Token上下文)推理设计的「专用加速器」。

Rubin CPX与NVIDIA Vera CPU ,以及用于生成阶段处理的Rubin GPU协同工作,共同形成了面对长上下文场景的完整的高性能解耦式服务方案。

CPX的推出,标志着解耦式推理基础设施的最新进化,也树立了推理经济的新标杆。

在规模化场景下,NVIDIA Vera Rubin NVL144 CPX平台,可带来30–50x的投资回报(ROI)。

这意味着1亿美元的资本性支出(CAPEX),最高可转化为50亿美元的收入。


百万Token怪兽
重新定义下一代AI应用

Vera Rubin NVL144 CPX平台,重新定义了企业构建下一代生成式AI应用的可能性。

NVIDIA Vera Rubin NVL144 CPX机架与托盘,配备Rubin上下文GPU(Rubin CPX)、Rubin GPU与 Vera CPU

Rubin CPX与NVIDIA Vera CPU、Rubin GPU,共同集成在全新的NVIDIA Vera Rubin NVL144 CPX平台内。

NVIDIA Vera Rubin NVL144 CPX平台,采用最新GPU架构,具备极高算力与能效比,可以基于MGX架构实现机架级部署。

1.算力跃升

NVIDIA MGX机架式系统,单机架集成了144块Rubin CPX GPU、144 块Rubin GPU与36颗Vera CPU,可以提供8 EFLOPS的NVFP4计算力,并在单机架内配备100TB高速内存与1.7 PB/s的内存带宽。

2.长序列的高效处理优化

Rubin CPX针对长序列的高效处理进行了优化,是软件应用开发与高清(HD)视频生成等高价值推理用例的关键。

3.显存升级

单个Rubin CPX GPU可以提供高达30 petaflops的NVFP4计算能力,它配备128GB的高性价比GDDR7显存,以加速最苛刻的上下文类工作负载。

4.注意力机制加速

相比NVIDIA GB300 NVL72系统,Rubin CPX带来了3倍的注意力机制处理能力,显著提高模型处理更长上下文序列的能力且不降速。

5.多种形态配置

Rubin CPX提供多种形态配置,包括 Vera Rubin NVL144 CPX,并可与NVIDIA Quantum-X800 InfiniBand横向扩展计算网络。

也可以搭配采用NVIDIA Spectrum-XGS以太网技术与NVIDIA ConnectX®-9 SuperNICs™的NVIDIA Spectrum-X™以太网网络平台结合使用,以实现大规模部署。


Rubin CPX
拥抱NVIDIA全栈AI生态

在生态上,Rubin CPX将得到完整的NVIDIA AI堆栈支持,包括:

  • 软件平台:NVIDIA AI Enterprise,包含NVIDIA NIM™微服务以及可在NVIDIA加速的云、数据中心和工作站上部署的AI框架、库与工具。

  • 编排与模型:NVIDIA Dynamo平台负责高效扩展AI推理,同时处理器将能够运行NVIDIA Nemotron™多模态模型家族中的最新模型。

  • 开发者生态:基于数十年的创新,Rubin平台扩展了NVIDIA庞大的开发者生态,包括NVIDIA CUDA-X™库、超过600万开发者的社区以及近6,000个CUDA应用。

NVIDIA Rubin CPX预计将于2026年底可用。

它的推出将为全球开发者与创作者解锁更强大的能力,重新定义企业构建下一代生成式AI应用的可能性。

参考资料:
https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-efficiency-for-1m-token-context-workloads/%20
https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference?ncid=so-twit-653111


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652626314&amp;idx=1&amp;sn=bea97bbe869040fd4ca430636bd2a8a4&amp;chksm=f05a74fbff692cfeeeee76b30edb8078a7a952821d6c65cb592418e5db4b6cf97daa4f039e96&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/Uw1y0jbxn7&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们