动态列表

  • 重磅!DeepSeek再开源:视觉即压缩,100个token干翻7000个
  • 全球首个「长肌腱」AI机器人量产!Nature盛赞的中国方案惊艳IROS现场
  • 甲骨文推出全球最大AI超算,作为OpenAI「星际之门」算力核心
  • MagicOS已成世界「第三极」,荣耀拿下AI大战叙事权
  • 美国拟减40%国际生,留学风向要变?Nature曝全球高校大洗牌
  • 美 NSA 被曝网攻中国「时间心脏」;微博王高飞:企业别把批评和黑公关混为一谈;传运营艰难,安世中国发公开信回应
  • 扎克伯格急了!Meta内部文件曝光:宁用竞品,也要废掉祖传系统
  • 浙大推出首个「多图应用题」基准GSM8K-V,全面评估 VLM数学推理能力
  • 超越纯视觉模型!不改VLM标准架构,实现像素级深度预测
  • 5万美元筛选「超级婴儿」, 智商提升15点?马斯克被曝是客户!
  • NeurIPS 2025 | KAUST与MetaAI提出Vgent:图增强RAG,长视频理解性能超越SOTA 8.6%
  • TPAMI 2025 OccScene:联合扩散框架,同时推进感知与生成进步,3D场景生成新突破!
  • 不靠RL、不用训练:哈佛「Power Sampling」让基座模型推理媲美GRPO
  • 不用微调!像打方向盘一样“操控”大模型思考:Steering正在改写推理范式
  • 中国AIGC用户破5亿,增长1倍;今年超7成外卖低于15元;新能源事故,「破窗锤」被网友买爆|极客早知道
  • AI芯片战争关键一役!英伟达最强Blackwell首次「美国造」
  • 数学界地震!GPT-5连破10道「百年悬案」,陶哲轩:AI革命才刚开始
  • 前OpenAI研究员跨界做文创:Ilya发型帽子走红,AI成潮牌!
  • 训练成本暴降99%,35秒出1分钟高清视频!英伟达MIT等引爆视频AI革命
  • Karpathy泼冷水:AGI要等10年!根本没有「智能体元年」
  • 早鸟票倒计时2天!全国大模型智能生成大会:推理、多模态、智能体前沿集结
  • First Try Matters,不是Aha Moment:邴立东团队揭示推理模型靠首答,不靠反思
  • 一致性轨迹强化学习登场:上海AI Lab让扩散语言模型实现全并行少步数推理
  • 传 iPhone 17 Air 表现不佳,砍百万产量;黄仁勋:英伟达中国份额从 95% 降到 0%;AI 致维基百科访问显著下降
  • 马普所&谷歌等提出AnyUp:无需再训练的通用特征上采样,推理即用,效果SOTA!
  • 北大等提出MaskDCPT:通用图像修复预训练新范式,PSNR提升3.77dB
  • 可处理上万变量,攻克高维时序预测难题!华人团队开源模型、基准
  • Bengio推AGI「高考」,GPT-5单项0分
  • Hassabis官宣用AI点燃「人造太阳」!无限能源时代加速到来
  • 全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA
  • 太狠了,四条腿被锯掉也能爬!通用大脑开启机器人「无休」时代
  • 零跑,不再「摸着理想过河」
  • 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新
  • Meta花了420万美元、烧掉40万GPU·小时,只为验证一条Sigmoid曲线
  • NeurIPS 2025 | 上交大提出MM-UPT:多模态大模型的“无监督后训练”范式
  • 从会画画到会思考:快手可灵提出T2I-CoReBench,最强模型也难逃推理瓶颈
  • 张鹏对谈朱啸虎、储瑞松、傅盛:Agentic AI 时代,不要什么东西都自己闷头做
  • Identity-GRPO:阿里开源多人物定制化视频生成的后训练优化算法
  • Real-world Video Super-Resolution | VSR的十字路口
  • 蔚来回应外国基金投诉:无事实依据;零跑推D19旗舰SUV,配超大电池;卡西欧推《回到未来》40周年联名表
  • 你的下一个「爱豆」不一定是真人,也可以是AI豆
  • 刚刚,谷歌深夜上新Veo 3.1!网友狂刷2.75亿条,Sora 2要小心了
  • 谷歌142页报告首发揭秘:90%码农每天用AI超2小时!
  • RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法
  • 谷歌×耶鲁联手发布抗癌神器!AI推理精准狙击「隐身」癌细胞
  • ACL 2025 | 北大提出动态焦点解码:让开放生成既“靠谱”又“好看”
  • 统一高效来了!清华发布RLinf-VLA:把VLA+RL的训练与部署“一网打尽”
  • GPT越来越保守?斯坦福Manning团队提出Verbalized Sampling,让模型重新“多想一点”
  • AI 时代,用一场「快闪」改变命运|IF 2026「AI 产品快闪」启动召集!
  • IF 2026 启动:来看看 AI 面前,谁在掌握主动权?
  • NeurIPS 2025 | 为Sora视频加上“隐形身份证”:清华大学等提出Safe-Sora,时空频率感知水印新框架
  • 从DNN到MLLM的异常之旅:视频异常检测(VAD)范式大迁徙
  • 苹果发布 M5 芯片笔记本和 iPad;微信:长时间不用账号,不再强行回收; 乔布斯登上一美元硬币
  • 马斯克的作业还是被奥特曼「抄走了」
  • 苏姿丰出手!Oracle下单5万颗AMD芯片,英伟达王座撼动
  • 具身智能算法哪家强?RoboChallenge见真章!全球首个大规模真机算法评测平台来了
  • NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%
  • 苹果M5「夜袭」高通英特尔!AI算力狂飙400%,Pro三剑客火速上新
  • TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++:4K照片增强仅需13ms,PSNR提升2.64dB!
  • IDEA提出Rex-Omni:将目标检测变为“下一个点预测”,零样本性能超越DINO
  • 罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控
  • AAAI 2026联合会议征稿开启:大语言模型中的深度逻辑推理
  • 下周见!Wiley Advanced主编论坛@IROS 2025:从审稿人视角重塑论文表达
  • Altman:ChatGPT将支持成人内容;港版iPhone Air无法用内地eSIM;传雷军一夜掉粉30万|极客早知道
  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产

英伟达4段简短提示词,IOI夺金!开源模型也能征服最难编程竞赛



  新智元报道  

编辑:艾伦
【新智元导读】OpenAI的封闭模型在IOI 2025竞赛夺金的同时,英伟达团队交出了一份同样令人振奋的答卷——他们利用完全开源的大模型和全新的GenCluster策略,在IOI 2025竞赛中跑出了媲美金牌选手的成绩!开源模型首次达到了IOI金牌水准。这究竟是怎样实现的?

IOI(国际信息学奥林匹克)是全球中学生算法编程竞赛的最高殿堂,每年只有不到10%选手能拿到金牌。

比赛要求选手在两天内各5小时独立解决3道高难度算法题,全程断网、不能借助外部资料,每题最多允许50次提交尝试。

要拿金牌,既要有过硬的算法思维,又得策略得当、在有限提交内调优代码。

如此严苛的赛制也成为AI编程能力的试金石。

去年OpenAI曾用专门微调的o1-ioi模型搭配复杂的推理策略参赛,但只拿到213分(排名约49%,未达到铜牌线)。

而今年OpenAI改用通用大模型组合,通过海量生成+自我验证的方法一举达成533.29分,排名逼近人类前五、稳拿金牌。

这一飞跃展示了大规模测试时计算(TTC,test-time compute,指在模型训练完成之后,实际用来做推理/生成/回答时所使用的计算资源)的威力,也意味着AI已逼近顶尖人类水平。

然而,这些惊人成绩大多来自封闭模型,而且具体技巧往往秘而不宣。

相比之下,开源模型虽在Codeforces等公开榜单上进步明显,但总体上仍落后于私有模型的表现。

GenCluster的出现扭转了这一局面。

英伟达的研究者提出这一可扩展测试时计算框架,专门提升开源LLM在编程竞赛问题上的解题能力。

通过充分利用推理阶段的计算资源,GenCluster让一个开源模型(OpenAI发布的gpt-oss-120b)在IOI 2025题目上首次跑出了446.75分的金牌级别高分!

他们在最新论文中公开了这一过程的细节和代码,实现了透明、可复现的评测。

下面,我们详细看看GenCluster的核心思想和实现流程。

GenCluster技术方案
以算力换思路的「四部曲」

GenCluster的理念很直接:用算力弥补思维差距。

既然单次生成代码往往不靠谱,那就多生成、优中选优。

GenCluster对每个问题(精确到子任务级别)执行一套 「海选+筛选+比拼+提交」 的流水线流程:

  1. 生成候选解:首先,利用大模型并行生成大量不同思路的候选程序代码。

    相比人类选手绞尽脑汁一次写出一个解,GenCluster直接调用LLM来个「海量脑暴」。

    论文中使用的gpt-oss-120b模型会针对每个子任务产生多达数千个候选方案。

    这些代码风格各异、五花八门,相当于请出一支「AI解题大军」,尝试各种可能的解法。

  2. 行为聚类:面对海量代码,下一步是筛选归类。

    GenCluster并非简单按文本相似度分组,而是关注程序运行行为的相似性。

    具体做法是让候选程序跑一系列测试用例(既包括公开样例,也包括模型或人工设计的小型测试),根据它们输出的结果模式将程序分成不同簇。

    直观来说,同一簇内的程序「成败相同」——要么在这些测试上全对,要么犯类似错误。

    这样可将数千方案归为若干行为类别,便于后续处理。

  3. 锦标赛排名:有了聚类,还需要从中找到最可能正确的方案。

    GenCluster别出心裁地设计了一个「AI 锦标赛」环节:

    先从每个簇挑选一个代表方案(他们发现「思路最长」(推理步骤最多)的代码往往更可靠,因此选取每簇中代码生成时思维链最长的那个作为代表);

    然后让这些代表方案在更多对抗测试中互相比拼,通过胜负场次来给簇排序。

    可以理解为每两个方案「踢一场比赛」,看谁通过的测试更多,胜者计分。

    经过多轮两两对决,每个簇都有一个胜场数,胜场越多表示该簇方案越可能是正确解。

    最终得到按「实力」高低排列的簇列表。

    这种LLM自我评估+行为竞赛的排名策略,比简单按簇大小或投票率排序要精细得多,尤其适用于多数候选都不正确的困难场景。

  4. 轮转提交:最后进入提交策略阶段。

    由于比赛每题仅有最多50次提交机会,如何挑选并提交方案至关重要。

    GenCluster采用轮转提交(Round-Robin)的方法兼顾冒险与稳妥:它按照上一步的簇排名依次循环,从每个簇取出一个方案提交评测,然后再轮到下一簇。

    如此「雨露均沾」,确保不同思路都有机会试错,不会把50次名额浪费在一条路上。

    每轮提交后,如果发现某簇的方案已经成功拿满该子任务的分数(即找到正确解法),那么该簇剩余方案就不再提交,转而尝试其他簇的方案。

    另外,GenCluster倾向先攻克难度最高的子任务,因为一旦拿下最难部分,简单子任务往往也迎刃而解。

    这种循环轮转+及时止损的策略,大幅提高了在有限提交内获取高分的概率。

经过以上四步,GenCluster在模拟真实比赛环境下,从茫茫代码中选出了少量最优解提交,从而最大化得分。

整个流程充分利用了大模型强大的生成多样性和计算资源,以「广撒网+巧收网」的方式弥补单次推理不准确的不足,可谓「用算力换正确率」的典范。

技术优势
GenCluster比其他方法强在哪?

GenCluster的核心创新在于大规模生成+智能筛选。

类似的思路以前也有尝试,例如AlphaCode系统就曾通过生成上百万代码并聚类筛选,达到Codeforces前54%选手水平。

OpenAI在IOI 2025夺金时也用了超过1万个候选项+聚类+学习打分的套路。

但GenCluster将这一思路在开源模型上发扬光大,并引入了更精细的「行为聚类」和「锦标赛」机制来提升筛选效果。

对比其他可能的策略,GenCluster显示出明显优势:

  • 对比随机或简单规则:论文实验让GenCluster与几种简单选择策略对比:随机挑选方案、按最长推理链挑选方案、按最大簇挑选、按多数投票输出挑选等。

    结果表明,GenCluster成绩远超这些基线方法,随机选方案最终总分约300分,按最长推理链只有277分,而GenCluster高达446.75分。

    显然,在IOI这样难度极高、正确解稀少的场景下,盲目选或简单统计是靠不住的,GenCluster的精细筛选策略更胜一筹。

  • 对比其他聚类策略:如果仅按簇大小选,假设「大簇更可能有正确解」,反而效果平平(接近随机)。

    这是因为错误解法可能充斥成为大簇;而真正正确的解法往往凤毛麟角,初始生成时可能只出现很小的簇。

    多数投票策略(根据候选程序在测试上的输出多数情况来评价簇)在这种高难题上也不理想,当绝大多数程序输出都是错的,「多数」并不可靠。

    相比之下,GenCluster的锦标赛排名能更有效地区分出潜在正确簇。

    此外,GenCluster 还通过挑选簇代表的巧思(用思路最长的方案代表簇)进一步提高了判断精度:研究发现这个简单技巧比随便拿簇中一个方案当代表要好不少。

    这些细节设计让 GenCluster 的选择更有「慧眼」,尽量把50次宝贵提交用在刀刃上。

  • 扩展性与计算投入:GenCluster最大的卖点是可扩展。它的得分会随着生成候选数量K的增加而提升,并没有明显饱和。

    从K=50一路增加到5000,最后提交得分从332分稳步提升到446.75分。

    当然,越多候选也增加了筛选难度,但GenCluster的方法能有效在海量方案中挖掘出优解,使得投入更多算力就有更高收益。

    这种正相关的扩展性非常关键:意味着只要有足够计算资源,开源模型的表现还有进一步超越当前金牌线的潜力。

GenCluster通过一系列策略巧妙地放大了开源模型的解题能力,弥补了模型本身与顶级闭源模型的差距。

正如作者所说,这为开源模型在复杂推理任务上缩小差距乃至后来居上提供了一条可行路径。

实验成果
开源模型首夺IOI金牌

英伟达团队在IOI 2025全部题目上验证了GenCluster的威力。

他们选用的gpt-oss-120b是今年OpenAI发布的开源1200亿参数大型模型,具备强链式推理能力,并经过英伟达优化可高效运行。

实验让该模型针对每个IOI子任务生成最多5000个候选方案,并用GenCluster策略从中选取提交。

结果令人瞩目:在严格遵守50次提交限制的情况下,gpt-oss-120b最终总分达到446.75分,超过当年金牌线 438.30分,相当于拿下了一枚IOI金牌!

这是历史上首次有开源权重的模型达到此成绩。

值得一提的是,这一分数虽然尚未追上OpenAI宣称的533.29分(后者借助了多个专有模型集成),但已经非常接近人类金牌选手的水平线。

在2025年的赛场上,排名第六名的人类选手得分也在533分附近,而排名28名(金牌最后一名)为438.3分。

也就是说,GenCluster相当于打败了除顶尖几位选手外的所有人类。

考虑到它使用的还是开源模型,这个结果格外鼓舞人心。

更重要的是,英伟达提供了透明的实验细节和代码,方便第三方验证和复现这套方案。

相比之下,OpenAI等公司的封闭方案由于缺乏公布细节,外界很难评估其中用到了多少计算资源、哪些特殊技巧。

GenCluster的工作为学术界和开源社区提供了一个公开的高水平基准,证明通过开源模型也能达成过去只有巨头专有模型才能实现的成绩。

创新意义
开源AI迎来新里程碑

英伟达GenCluster的成功标志着开源AI在顶级编程竞赛领域取得了里程碑式的突破。

以往,封闭大型模型在这类竞赛中一骑绝尘,让人感觉开源方案望尘莫及。

如今,GenCluster 展现出「弯道超车」的可能:只要方法得当、资源到位,开源模型也完全有实力和封闭模型一争高下。

这样的案例无疑会对AI竞赛格局和开源生态产生深远影响:

其一,打开竞赛新赛道。

今年IOI专门增设了AI线上赛道,让AI系统在与人类相同规则下参赛。

而随着像GenCluster这样的开源方案崛起,未来我们可能看到更多团队用开源模型参赛,甚至举办纯粹比拼AI的编程大赛。

在公平可复现的前提下竞技,有助于加速技术进步,也增加了比赛的看点。

其二,促进行业开放与合作。

当开源模型凭借透明方法取得佳绩,这对封闭模型路线也是一种鞭策。

OpenAI、DeepMind等或许需要更主动地披露其竞赛AI的技术细节,或干脆开放部分模型权重,来回应学术界和业界对可验证性的需求。

同时,英伟达此次扮演了「协同者」角色,一方面与OpenAI合作训练优化了gpt-oss-120b等模型,另一方面自己又利用这些开源模型推出创新方案。

可以预见,跨机构的合作和开源社区的参与将成为推动AI极限挑战的新动力。

其三,降低研究壁垒。

过去,要想在编程挑战上取得顶尖成绩,往往需要调动专有模型和海量计算,非常昂贵且不可复现。

现在有了GenCluster提供的开源范例,更多研究者可以基于公开代码和模型复现乃至改进这个方法。

这将繁荣该领域的研究,让算法竞赛逐渐成为衡量通用AI的标准基准。

当开源模型不断刷新纪录,意味着学术界不必事事仰赖商业巨头,也能推动前沿进展。

当然,我们也应看到,目前GenCluster达成金牌仍以巨大计算开销为代价,每题生成上千方案、运行上万次测试,对算力和工程有相当要求。

如何在减少计算成本的同时保持高性能,是未来努力方向之一。

此外,开源模型要彻底追上并超越最强的封闭模型,可能还需要在模型架构和训练上继续改进。

但不管怎样,英伟达GenCluster已经向世人证明:开源选手也能站上AI编程竞赛的领奖台。

这一突破无疑为开源AI正名,并将在社区引发新一轮关于「算力vs.算法」「封闭vs.开源」的思考与探索。

在一条形容AI答题的玩笑中,有人说「也许只要给足够多的猴子足够多的打字机,就能写出完美代码」。

而GenCluster则用实践告诉我们:即便不开「小黑屋」训练专用强大模型,开源AI也能靠聪明地调动「千军万码」来解决最难的题。

开源模型勇夺IOI金牌,不仅是技术上的胜利,更是理念上的一次胜出。

它象征着开放与共享的力量,正在足以比肩那些神秘莫测的「封闭巨兽」。

展望未来,随着开源生态和创新算法的双轮驱动,我们有理由期待,在更多人工智能的竞技场上,都会出现开源选手登顶的身影。

参考资料:
https://arxiv.org/abs/2510.14232v1
https://x.com/JacksonAtkinsX/status/1979563525614842156

附录:英伟达GenCluster实战Prompt

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652636161&amp;idx=1&amp;sn=29a106c1b9486ce0840d715cce9aa0ce&amp;chksm=f0682f4ac46cdbe0b5f160d6d1d52979579ee2e375720214308c8515c93309588472404ed2f1&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/V5szZMMpEZ&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们