动态列表

  • 刚刚!谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代
  • 硬核拆解!从GPT-2到gpt-oss,揭秘大模型进化关键密码
  • 黄仁勋子女逆袭上位!4万亿「皇储」成长史首曝:一个学烘培,一个开酒吧
  • GPT-5首次会推理,OpenAI联创曝AGI秘诀!超临界学习吞噬算力,2045金钱无用?
  • 400万人围观的分层推理模型,「分层架构」竟不起作用?性能提升另有隐情?
  • CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力
  • SEAgent:开启从实战经验中自我进化的GUI智能体新纪元
  • OpenAI估值达5000亿美元;「原道」联手小岛秀夫,推《死亡搁浅》耳机;苹果手表将「大幅重新设计」
  • 奥特曼神秘晚宴讲话曝出!OpenAI的CEO或将是个AI,Chrome我也想买
  • 谷歌最新「0.27B」Gemma 3开源!身板小却猛如虎,开发者直呼救命稻草
  • 最惨就业季!CS学霸GPA 3.98,投2500份简历仅10次面试,AI吞噬入门级岗位
  • Yann LeCun最新纪录片首曝!传奇AI教父的双面人生,深度学习幕后40年
  • 大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲
  • 当AI比我们更聪明:李飞飞和Hinton给出截然相反的生存指南
  • 简单即强大:全新生成模型「离散分布网络DDN」是如何做到原理简单,性质独特?
  • Sam Altman:AI存在泡沫;宇树机器人夺金,王兴兴:用遥控追求极致速度;蔡浩宇AI游戏上架,27.19元|极客早知道
  • 吞下17亿图片,Meta最强巨兽DINOv3开源!重新定义CV天花板
  • 打开高德的理由又多一条!全球首个「需求链智能调度」AI地图上线
  • 核心模型被曝蒸馏DeepSeek?前女友一纸控诉,曝出欧版OpenAI塌房真相!
  • 一句话搞定多任务出行,高德用空间智能重新定义地图
  • GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了
  • 谷歌开源Gemma 3 270M,性能超越Qwen 2.5同级模型
  • 追剧不断网,可能背后有个AI在加班,故障诊断准度破91.79%
  • Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源
  • 多突触神经元模型问世,国内团队打造类脑计算新引擎,登上《自然·通讯》
  • Science封面:高效精准模拟构象变化,微软研究院用生成式AI重塑蛋白质功能研究
  • 扎克伯格看OpenAI直播挖人,北大校友孙之清加入Meta
  • AI 模特时代到来:字节x清华推出商用级视频换装模型DreamVVT,保真度显著领先SOTA
  • LeetCode刷够100小时,学会找人内推,OpenAI员工下场教你拿Offer
  • xAI元老离职干风投,传奇人物Babuschkin长文追忆与马斯克创业战友情
  • 链式思维是幻象吗?从数据分布视角重新审视大模型推理,马斯克回复,Grok破防
  • 李想:i8 反响不错,产品力没对手;库克暗示:苹果将推桌面机器人;中国日均消耗 30 万亿 Token,暴涨 300 倍
  • ChatGPT会让大脑退化?OpenAI高管用它救下自己「读写障碍」的女儿
  • 谷歌超级编码智能体正式上岗!125刀大会员,每天300任务任意跑
  • Meta华人天才毕树超「叛逃」预言:OpenAI未竟交互革命,暗藏万亿赛道
  • 美国CS就业梦碎!狂投5000家0 Offer,名校毕业00后被麦当劳惨拒
  • 3 分钟,我学会了像鸟儿一样飞行 | New Things
  • 从隐私计算迈向六大数据流通全栈技术,“隐语”开源社区升级
  • 7天,一场风暴!理想 i8「刮骨疗毒」,怒砍两个版本
  • 小订过万!打死不说价格的全新小鹏 P7,用颜值吊起了所有人的胃口!
  • 对话理想智驾负责人:撕掉「奶爸车」标签,智驶是理想的「新引擎」
  • 告别「偏科生」时代!36 万的坦克500,让对手从此无路可走
  • 万字长谈王小川:不再迎合他人做学霸,我要解自己的命题
  • ICCV 2025 | HVPL:分层视觉提示学习,让“视频实例分割”模型告别灾难性遗忘
  • 复旦&微软提出StableAvatar: 首个端到端“无限时长”音频驱动的人类视频生成新框架!
  • 千支队伍争锋!首届「启智杯」算法大赛圆满落幕,助推AI应用落地
  • 冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世
  • ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
  • 苹果 AI 下半场:年底问世的新 Siri,要彻底改变 iPhone 的交互
  • GNN+KAN,把三角函数当「激活」选项,山大、南洋理工让分子图更会读化学子结构
  • 港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体
  • 破解「长程智能体」RL训练难题,腾讯提出RLVMR框架,让7B模型「思考」比肩GPT-4o
  • AI独角兽498家,估值2.7万亿美元;《王者荣耀》连续三年成全球最吸金手游;抖音测试「快递」服务|极客早知道
  • 奥特曼公然叫板马斯克!重金杀入脑机接口,硅谷两大巨头彻底决裂
  • AI女友24h陪玩,全球800万人上头!这群AI创企靠百度开挂
  • 马斯克删除xAI「研究员」职位引爆网络!LeCun怒批:如此暴力将扼杀创新
  • OpenAI女CEO太狠了!智商148,GPT-5才是真印钞机
  • AI 和海外游戏发力,腾讯重回 7000 亿美金
  • 博士申请 | 休斯敦大学计算机系刘锦阳老师招收高性能计算/数据压缩方向博士生
  • Kimi K2背后的冷门绝招:海量语料“重写”如何榨干每个token?
  • ICML 2025 | 奖励模型还用人标?APEC用对抗模仿生成偏好,泛化能力直线上升
  • Attention Sink的起源找到了?清华×美团首次锁定MoE中的「超级专家」
  • 告别Transformer,重塑机器学习范式:上海交大首个「类人脑」大模型诞生
  • AI 上新|在 Edge 浏览器里,我第一次感受到了 AI 的「人味」
  • Agent狂欢下的冷思考:为什么说Data&AI数据基础设施,才是AI时代Infra新范式
  • AI顶会模式出了问题? 「不发表,就出局」的恶性循环,正在压垮整个AI学界
  • 研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现
  • 多模态大脑建模技术迈入新纪元:Meta 10亿参数模型获Algonauts 2025大脑建模竞赛冠军
  • OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了
  • 当人们怀念 GPT-4o,他们在「怀念」什么?
  • IEEE TPAMI 南洋理工&哈工大提出 MARCONet++ 攻克中文文本图像超分难题
  • 耶鲁&大连理工&南洋理工等提出MDCNeXt:X射线下的“动力电池缺陷精准检测”新范式
  • 6秒造一个「视频博主」,Pika让一切图片开口说话
  • 破解AI创企的「不可能三角」,解药不止「大模型」
  • OpenAI和奥特曼将投资一家脑机接口公司,直接与马斯克的Neuralink竞争
  • 大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO
  • 传 DeepSeek-R2 8 月发布;微信测试信用借款功能;Perplexity 要 345 亿美元收购 Chrome
  • 一觉醒来,GitHub没了?CEO辞职,微软接管,开发者天塌了
  • AI全国榜单爆冷,全网吃瓜大狂欢!这家黑马竟靠DeepSeek杀进全国TOP 2
  • 物理学「AlphaGo时刻」?40年未竟之事被AI一举攻破,顶尖物理学家集体傻眼
  • 刚刚,商汤内部两万字复盘曝光:多模态通往AGI核心路线首次公开
  • 让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源
  • 从物竞天择到智能进化,首篇自进化智能体综述的ASI之路
  • 破解效率与成本难题:华为UCM技术推动AI推理体验升级
  • SIGGRAPH上,英伟达发布物理AI开源新技术,更新RTX Pro产品线
  • 身家25亿刀,是四家公司创始人,这位伯克利教授还在给本科生上课
  • 商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁
  • 北京内推 | 度小满金融视觉和多模态团队招聘视觉多模态算法实习生
  • 实验室抢显卡抢破头?A800/H800骨折价来袭,超值返券助你轻松冲DDL!
  • 后训练轻量「小枝」强势出击!极限剪裁视觉token,推理加速154%
  • ICCV 2025 | LightSwitch:CMU提出材质引导的扩散模型,2分钟实现高质量三维场景重打光
  • TCSVT 2025 | 跨模态学习助力复杂工业过程异常检测:FmFormer框架与基准测试新突破
  • AI全面挖掘微蛋白价值:首次引入合成负样本训练,剔除92%噪声,摆脱保守依赖
  • 是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了
  • 东方理工·甬江论坛|新大学、新使命,邀你共启未来
  • LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
  • ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace
  • 聚焦前沿,见证未来!「X·创新』产品SHOW圆满举办!
  • 刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌
  • Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型
  • 雷军:小米YU7改名,被误会是丐版;传淘宝闪购周末峰值超美团;低价 MacBook 或年底亮相,599 美元
  • OpenAI开源霸权5天终结,百川M2一战夺冠!实测比GPT更懂中国医疗
  • 硅谷精英放弃生娃!MIT女记者揭秘:人类只是AI垫脚石,世界很快就毁灭
  • 41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码
  • 2025全球大模型应用报告:红海混战「忠诚度」瓦解,用户脚踏4.7条船!
  • 昆仑万维发布新模型 SkyReels-A3,开启五天技术发布周
  • 世界机器人大会:笨拙的今天,与狂奔的明天
  • 「一只手有几根手指」,你的GPT-5答对了吗?
  • 4D空间智能:AI如何一步步「看懂」时空结构?一篇综述解析通往四维世界的五大层次
  • 智谱终于发布GLM-4.5技术报告,从预训练到后训练,细节大公开
  • 从捍卫者到引路人,上交&上海AI Lab提出LEGION:不仅是AI图像伪造克星,还能反哺生成模型进化?
  • ICCV 2025 | 机器人自主探索未知复杂空间?GLEAM破解主动探索建图的泛化难题
  • 脑子比不过AI,手也要沦陷了?这只灵巧手看得我有点慌
  • 第二届 “兴智杯” 全国人工智能创新应用大赛专题活动明天开启,技术解析 + 资源对接一站式平台重磅来袭!
  • 机器人上下文协议首次开源:阿里达摩院一口气放出具身智能「三大件」
  • Attention Sink产生的起点?清华&美团首次揭秘MoE LLM中的超级专家机制
  • 具身智能技术与应用论坛圆满举行,北京人形公布多项创新成果
  • ACL 2025 | 湖南大学、腾讯生命科学实验室等提出蛋白互作预测新方法,让LLM学会解读蛋白质网络
  • 宇树、银河通用都在用:英伟达「物理AI」技术亮相世界机器人大会
  • CVPR 2025 | DPC:用于微调视觉-语言模型的双提示协作
  • ICCV 2025 | 终结灾难性遗忘!南大提出外部知识注入机制,刷新CLIP持续学习SOTA
  • 超越样本级RL!人大×快手提出ARPO:熵驱动Agent探索,多轮推理性能飙升
  • 北京/上海内推 | 盛大集团AI创新中心招聘大模型/Agent方向算法实习生
  • 毒液抗菌搭配深度学习,千万级数据组中筛得386条备选,91.4%体外验证成功

刚刚,全网最懂图文调研的智能体模型震撼上线,看完我直接卸了浏览器

疯狂的七月已经落下了帷幕,如果用一个词来形容国产大模型,「开源」无疑是当之无愧的高频词汇。

各大厂商你方唱罢我登场,昆仑万维、阿里、智谱、月之暗面、腾讯、阶跃星辰等众多玩家们先后开源了数十款大模型。根据 Hugging Face 发布的中国 AI 社区七月开放成果,短短一个月开源模型总数达到了惊人的 33 款。

进入到八月,国产大模型「上新」的势头丝毫不减,重量级成果发布的热度继续升温。其中,上个月接连开源第二代奖励模型 Skywork-Reward-V2、多模态理解模型 Skywork-R1V3 以及多模态统一预训练模型 Skywork UniPic 的昆仑万维,又官宣了一波技术大放送!

从本周一开始,昆仑万维正式启动 Skywork AI 技术发布周!连续五天,每天都有新模型亮相,从视频生成模型 SkyReels-A3、世界模型 Matrix-Game 2.0、生图一体化模型 Skywork UniPic 2.0 到深度研究 Agent 模型等,多模态 AI 的核心赛道几乎全囊括了,干货满满。

图片

8 月 14 日,在技术发布周的第四天,昆仑万维重磅发布了最新 Agent 成果,为其在智能体领域的探索与布局开启更多可能。不久之前,昆仑万维才带来了全球首款 Office 智能体 —— 天工超级智能体(Skywork Super Agents),登顶多个榜单,在文档、PPT、Excel、网页、播客等多任务执行中秀了把一站式生成能力。

此次,昆仑万维将天工超级智能体的核心引擎 Skywork Deep Research Agent 升级到了 V2 版本。新版本不仅将深度调研体验推升至新高度,还在多模态信息检索与生成、浏览器智能体任务中利用独立的 Agent 模块,促成性能、稳定性与智能化水平的均衡跃升。

性能究竟有多强,先上跑分成绩。首先在权威搜索评测榜单 BrowseComp 中,Skywork Deep Research 在常规推理模式下正确率已达到 27.8%,超越了 GLM-4.5、StepFun Deep Research、Claude-4-Opus 等国内外大多数主流同类产品;而在启用自主研发的「并行思考」模式后,准确率更是跃升至 38.7%,一举刷新行业 SOTA 记录,将 Grok-4 在内所有竞品甩在身后。

图片

此外,在全球最具挑战性、覆盖最广的智能体基准测试集 GAIA 中,Skywork Deep Research Agent 同样刷新 SOTA 成绩,超越所有竞品,复杂任务中的硬核表现不言而喻,也为其技术含金量做出有力背书。

图片
图片

赶快来天工超级智能体(Skywork Super Agents)体验!

  • 全球官网:https://skywork.ai

  • 国内官网:https://tiangong.cn

这位 Agent 新面孔在实操上能不能达到预期呢?一手实测给了我们很大惊喜。

Agent 深度研究的全感知时代  始于多模态信息检索

去年 12 月,谷歌推出了 Gemini Deep Research 功能,标志着全球首个 AI 研究助手的诞生。该功能可以自动浏览网页、整合关键信息,并生成结构化的研究报告。这意味着,传统研究员吭哧吭哧干几天的活儿,它仅需要几分钟就能完成。该功能一经发布就迅速引发业界关注,OpenAI、xAI、Perplexity AI 等其他大模型厂商也紧随其后,纷纷推出自家的 Deep Research。

尽管这些 Deep Research 功能在提取和整理文字信息时有着较高的效率,但它们过于依赖纯文本的检索和分析,往往忽视图片、图表等视觉内容。而如今互联网上超过一半的关键信息都以图文混排的形式呈现,比如财报中的曲线、科研论文里的实验图、社交媒体上的对比照、业务方案中的流程图等,如果这些图片信息被忽视,研究报告的完整性和准确性将大大降低。

为解决这一痛点,昆仑万维推出了业界首个「多模态深度调研」Agent 。通过创新性地整合多模态检索理解和跨模态生成能力,它不仅能够识别并处理图片、图表等信息,还能将图片中的关键信息融入报告中,并生成图注和综合性图表,为研究人员提供更加全面、准确的报告。

比如,我们输入提示词:请配合丰富的图表,详细揭示 2025 年特斯拉在中国的销售情况,并分析销量变化的核心原因。

图片

领到任务后,它首先跳出一个表单让我们勾选任务需求,包括写作语言、写作篇幅、分析维度、图表类型偏好、核心原因分析角度等。如此一来,我们就能够根据自己的具体需求,定制报告的内容、深度和呈现方式。

图片

确认完需求,它会生成一个待办清单,继而调用各种工具搜索浏览网页、整合信息,尤其是涉及图片部分,它会自动调用 MCP 工具进行图片分析以及图表制作。

图片

在浏览了 180 个网页、使用 54 个信源后,最终输出一份详细的特斯拉中国销量分析报告。

报告中包含丰富的图表展示,比如特斯拉中国月度销量趋势折线图、主要城市销量柱状图、中国新能源汽车市场份额饼图等。更重要的是,它把图片中表达的信息融入到报告文字当中,提供更全面的文字解读。

为了防止胡说八道,每个重要数据都标注了来源,鼠标一点即可跳转

图片

它还会根据文字内容,在合适的位置插入对应图片,并自动生成简洁图注。对于图表较多的报告,它甚至会专门拿出一节来对图表进行辅助说明。

图片

这番实测意味着谷歌 Gemini Deep Research 搞定不了的图文盲区,被昆仑万维的 Agent 轻松拿捏。让 AI 真正具备专业研究人员的感知与表达能力,离不开多模态爬取、长距离多模态信息收集、异步并行 Multi-Agent 多模态理解架构和多模态结果呈现四大核心技术突破:

  • 首先,利用 MM-Crawler 工具进行结构化文本、二进制图片和元数据的并行爬取,通过「视觉噪声剪枝」技术以毫秒级剔除低信息密度图片,平均减少 65% 的冗余图片流量。

  • 其次,利用大规模「文字 - 图片 - 推理链」合成数据训练,实现长距离(几十步数万字)上下文感知与图片信息增益判断能力,将真正需要深入推理的图片数量压缩至一半,有效节省计算资源。

  • 第三,利用异步并行 Multi-Agent 架构,将不同任务智能调度给不同的 Agent 并行执行,并结合「多轨执行 + 流水整合」的设计,提升包括文本和图片在内的多模态检索与理解效率。

  • 最后,在结果生成阶段,支持信息「转写 — 插图 — 重绘」三位一体的自动生成方式,既可将图片信息融入文字解读,也可插入原图并在融合多图、多模态信息后重绘综合性图表,输出信息完整、视觉友好的深度报告。

目前,该功能已在 skywork.ai 官网上线,人人都可体验。

突破传统浏览器 Agent 瓶颈  深入挖掘社交平台内容

接下来,我们再看看 Skywork Deep Research Agent V2 的另一大功能模块 —— 多模态深度浏览器智能体(Skywork Browser Agent)

在实际应用中,传统浏览器智能体存在诸多瓶颈问题,比如执行效率差、成功率低,特别是在处理文字密集内容时表现迟缓;由于平台壁垒(如登录和验证问题)还可能导致任务中断;以及在复杂边缘场景中适应能力较弱,常常出现卡顿、死循环等失效情况。

昆仑万维此次推出的 Skywork Browser Agent 巧妙化解了这些痛点。借助深度多模态内容理解能力,不仅能够高效分析社交媒体上的文本信息,还能精准筛选与提取图片、视频以及评论区的情感与观点,提供更加全面的信息洞察。在网页浏览的全过程中,它都能做到有条不紊、规划周密,而这一切都依托于自研模型非凡的推理能力。

此外还能自动进行线上社区内容的高效数据分析,将枯燥的调研工作转化为直观且易懂的可视化报告。同时支持一键式网站部署,将抓取的关键图片与分析内容生成独立网站,方便展示和分享。针对部分社交平台登录墙的难点,配备了智能化接管机制;为每个执行步骤设置了自适应超时控制,有效防止整套工作流阻塞,从而大大提升浏览器智能体的执行效率。

举个例子。最近,喜剧大师陈佩斯带着自编自导自演的《戏台》回归大荧幕,公映 4 天就斩获近 2 亿元票房。不过,对于这部打磨 13 年的影片,网友给出了两极分化的评价。

我们让 Skywork Browser Agent 基于用户反馈,生成一个关于电影《戏台》上映后网友评价的分析报告网页。

此处的工作流程与前文所述相似:勾选补充信息、生成待办清单,然后调用 MCP 工具执行任务。比如旁边会弹出一个 Skywork 虚拟机来显示浏览器 agent 的操作轨迹:它可以自动打开豆瓣电影首页,输入「戏台」进行搜索,进入电影链接详情页后收集更完整的信息和用户评论。

搜完信息,它就开始搭建网页,开发 HTML 页面框架,并按照各分析维度划分内容区块;设计 CSS 样式,确保页面美观易读;使用 JavaScript 实现数据可视化和交互功能,同时下载并配置相关图片资源。如果觉得生成网页不符合预期,我们还可以和浏览器 Agent 进行多轮交互,根据当前生成好的网页进行二次编辑,Skywork Browser Agent 强大的指令跟随能力可以完美支持这一操作。

可以看到,最后生成的网页不仅结构清晰,设计精美,且内容涵盖了电影的基本信息、票房表现、豆瓣和猫眼的评分对比等关键数据。网页内的观众评分分布、情感倾向分析和热点话题图云等可视化图表,极大提升了信息的可读性和直观性。我们还可以通过简单的点击与交互,深入了解影片的各项数据和网友评论,进一步剖析影片的正负面评价及争议点。

为测试稳定性,我们还进行了一个有趣的实验 —— 浏览周杰伦的 Instagram,并打造一款粉丝应援网站。结果显示,制作的网页不仅功能完整,还具备独特的视觉风格,效果出色。

如此高效稳定网页浏览能力的实现,要归功于以下多项自研的关键技术方案:

  • 集成强大的多模态推理模型与优化的 DOM(文档对象模型)解析能力,为 Skywork Browser Agent 提供了卓越性能的核心支撑。

  • 主流平台动作适配与并行搜索 / 多动作规划机制,显著提升执行效率。

  • 内置智能筛选系统以自动过滤低质或涉隐图片和文字内容。

  • 人机交互场景下支持智能提示与接管,而且能通过加密与前端保护机制保障用户隐私安全。

Skywork Browser Agent,通过模拟人类浏览与交互方式,革新传统的数据采集与分析模式,精准高效地完成智能搜索、多模态信息分析与社区内容洞察,在长周期的 VLA(视觉 - 语言 - 动作)任务中展现巨大的潜力。

不过,这一功能尚处于内测和邀测阶段,预计将于下周向全部用户开放。

全栈式演进  构建从数据、算法到多智能体系统的智能基座

从一系列实测看下来,昆仑万维此次的 Agent 产品在自主性、交互性、任务完成度等方面已经今时不同往日,称得上是一个「独立思考、深度执行的智能工作伙伴」。 特别是在信息检索、整理、总结以及复杂任务的执行中表现出了惊人的效率与准确性,背后依托的是 Skywork Deep Research Agent V2 引入的多项关键提升机制,包括高质量数据合成、端到端强化学习、高效并行推理以及多智能体演进系统。

作为 AI 三大核心要素之一,在数据层面下功夫任何时候都是必要的。为了增强 Agent 模型对复杂及深度信息搜索场景的理解,昆仑万维自研了一套端到端深度信息问题合成流程,使系统生成高质量搜索查询数据集成为可能。

首要一点是制定数据质量标准。昆仑万维在初期设计阶段明确了高质量搜索问题以及答案的五大核心标准,包括多样性、正确性、唯一性、可验证性和挑战性,确保每一个生成的查询都能覆盖广泛的主题和难度层次,同时答案也要准确、唯一可靠并可验证。然后进入到数据准备阶段,通过多渠道收集互联网数据,构建初步的种子池,并利用自动化筛选系统评估、挑选出最具潜力的信息,为后续问题构造提供优质素材。

接下来处理复杂且具有挑战性的问题,一方面利用深度信息收集技术系统性地从多个信息源中提取线索,将具体信息抽象为高难度的搜索查询;另一方面采用迭代式增强策略,将简单搜索转化为多步推理的复杂问题。过程中引入了层次化推理链和信息混淆技术,以进一步提升问题复杂度和模型推理能力。

一番流程跑下来,每个环节的数据质量和任务难度都得到严格控制,尤其是覆盖五大标准的高难度问题体系,为接下来大规模、端到端的强化学习提供了数据基础。

想要提升 Agent 模型的学习效率和推理能力,需要克服传统 RLHF 奖励模型主观性强和易受攻击的难题,为此昆仑万维提出了非对称验证驱动的强化学习方法。具体到训练框架上,采用了 GRPO 算法和动态课程学习机制,确保训练过程中数据维持在最佳难度区间,避免简单和过难问题的干扰;同时动态更新数据集并补入新的数据,使模型始终处于有效「学习区」内。

为了进一步提升验证精度和奖励的有效性,昆仑万维创新性地引入了基于线索的生成式密集奖励机制,并利用生成式奖励模型为 Agent 模型提供更细致的反馈。若输出最终答案则给予满额奖励,若未能输出最终答案则进一步分析问题构造阶段保存的线索以进行过程评估,并在判定当前输出中正确线索比例的基础上赋予模型连续、高区分度的部分奖励。奖励信号贯穿整个解题过程,提升学习效率和推理能力的目标得以实现。

性能得到保障的同时,效率也必须提升,这时昆仑万维自研的并行推理框架发挥了用武之地。此前谷歌 DeepMind 在其最新 Gemini 2.5 Deep Think 推理模型中通过生成多个 Agent 来并行处理任务,并摘得 IMO 2025 竞赛金牌,有力验证了并行推理机制在提升复杂任务处理效率方面的有效性。而基于以下三项创新,昆仑万维在显著提升推理效率的同时大大节省了计算资源。

一是并行思考模式,在每一步生成多个候选推理路径并从中筛选最优候选路径以备后续使用,避免因推理链断裂、前后逻辑冲突导致的卡壳等失效行为。同时通过多节点异步推理架构,有效缩短推理时间并提升计算资源使用效率;二是在多步推理规划中引入生成式评估方案,对多个候选推理路径进行打分和筛选,结合锦标赛排序机制确定最优推理轨迹,并利用异步推理机制降低这一过程所带来的计算负担和时间开销;三是在并行推理过程中引入熵自适应剪枝技术,动态调整路径选择,减少冗余计算,降低资源开销。环环相扣,保证系统面对复杂动态任务依然稳定高效。

图片

并行思考模式下,Skywork Deep Research 的正确率随思考时间延长持续攀升,验证了其自研系统架构在推理深度与扩展性上的巨大潜力。

在数据、算法、算力优化之外,Skywork Deep Research Agent v2 能力的跃升与多智能体演进系统的持续进化息息相关。随着 Agent 应用场景日益丰富,MCP(模型上下文协议)外接工具的作用越来越大,不过随着此类工具数量和复杂度的增加,需要更高效的自动化管理工具。针对此,MCP 工具自动创建技术应用而生,通过对工具定义的标准化管理和实时同步,大幅减少人为错误,提升系统响应速度和工具链的灵活性。

在这一 MCP Manager Agent 的基础上,一个将模型能力与工具能力结合起来的协同多智能体框架形成,不仅能高效组织多个 Agent 协作,还通过动态创建 MCP 工具来强化任务应对能力和环境适应能力。下图整体架构中一一显示出 了规划 Agent、深度调研 Agent、浏览器使用 Agent、数据分析 Agent 和 MCP Manager Agent。

图片

这一套系统性的升级,无疑让 Skywork Deep Research Agent V2 具备了强通用性、强适应性和强自主性,从而构筑起 Agent 模型强大的智能基座,在实操中释放出更强的稳定性、泛化性与创造性。

写在最后

2025 年已经过半,我们明显感受到的一点是:伴随 Scaling Laws 逐渐放缓的影响,国内外 AI 玩家们追求单一最强通用大模型的热度有所降温,就连 OpenAI 迄今最强的旗舰模型 GPT-5 都被吐槽缺乏突破性体验。相反,成果开源与应用落地成为了业界普遍关注的焦点。

可以说,AI 行业重心的转移正在重新定义下一阶段的竞争格局。谁能在开源之上更快更好地打造贯通上下游的工具链与应用生态,同时率先将 AI 能力转化为可规模化部署的商业生产力,谁就更能在新一轮 AI 竞赛中抢占战略高地。

昆仑万维为期一周的模型发布,既是其 AI 技术成果的集中亮相,也是其在多模态 AI 领域加速落地、引领行业趋势的重要信号。

无论是赋能创作者进行高质量图片与视频生成、构建虚拟世界智能交互,还是 Agent 驱动的自动化任务执行、音乐创作灵感激发,昆仑万维从基座模型到多模态交互系统的全栈式布局又一次展现在大众面前。这也彰显出这家 AI 公司坚定践行其「All in AGI 与 AIGC」发展战略的决心与魄力,通过打造全方位的产品矩阵,以期在全球 AI 竞争格局中稳固并扩大自身领先优势。

其中,作为当前加速大模型落地的核心途径,Agent 的重要性已经在业界达成共识。我们可以期待,此次的深度研究 Agent 势必会在深度任务执行、多模态协作和跨场景应用中继续拓宽昆仑万维大模型的落地边界,也有望为整个 AI 行业带来更高效、更智能的解决方案。

]]>

联系我们