动态列表

陶哲轩官宣AI数学基金首轮名单：29个项目瓜分1.3亿，数学界沸腾！
GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭
一手奶瓶一手键盘！新手宝妈产假氛围编程，自研实用家庭App
刚刚，DeepSeek-V3.1「终极版」重磅发布！最大提升超36%，V4/R2还远吗？
为了千元机用户的「流畅权」，OPPO 为安卓换了个「引擎」
一年卖出 10 个亿，这是年轻人真正的「户外神器」
Teable 宣布完成数百万美元天使轮融资，让数据库「长出耳朵和手」
不到两千块，我拍到了专业级别的月全食｜New Things
苹果发布Manzano：一种简单可扩展的统一多模态大模型，其混合视觉Tokenizer统一了理解与生成任务，性能SOTA
字节跳动SAIL-VL2登顶OpenCompass，开源高效多模态新标杆
博后年薪40万到90万 | 东方理工朱文韬课题组招聘AI方向博士后、研究助理教授、访问学生、实习生
黄仁勋出手，50 亿美元入股英特尔，英伟达一统「GPU+x86」生态
巴菲特清仓比亚迪，期间股价上涨 38 倍；苹果折叠屏手机细节曝光；雷军年度演讲定档 9 月 25 日
刚刚，Gemini「灵魂人物」官宣加盟xAI！马斯克火速转推背书
靠10万+粉丝，北漂插画师秒贷款！华为全栈AI加速，让银行及时看见
醒醒，LLM根本没有性格！加州理工华人揭开AI人格幻觉真相
哈佛大佬都哭了！H-1B签证飙至10万刀，微软谷歌连夜召回全球员工
马斯克xAI百天血战，100天狂招100人！联创实权被削，豪言干掉微软
全球双榜SOTA！明略科技专有大模型 Mano开启GUI智能操作新时代
谷歌Gemini IMO和ICPC夺金功臣之一被xAI挖走，马斯克直呼：起飞
工业级3D世界构建提速90倍！全新框架LatticeWorld让虚拟世界「一句话成真」
集合通信库VCCL释放GPU极致算力，创智、基流、智谱、联通、北航、清华、东南重磅开源
【招生招聘】阿卜杜拉国王科技大学孟彦达博士组全奖博士、博后、实习、交流生
告别视频“抽帧”理解，美国东北大学新算法GRT算法实现高效可扩展的高帧率密集视频理解
iPhone17 卖爆，官网发货延至双 11；比亚迪仰望 U9 赛道版开启预定；网友玩坏 iPhone「舌头刷抖音」
「逆龄大脑药」首次人体试验！奥特曼押注RTR242，返老还童将要成真？
终结CMU霸权，清华首次登顶CSRankings世界第一！北大AI领域夺冠
大模型训练新突破！Meta提出LSP：无数据也能实现能力飞升
OpenAI最新硬件2026年底亮相！狂挖苹果20+老将，首款神秘设备或将颠覆iPhone
小扎AI眼镜当场死机，CTO自曝灾难级演示内幕：一个指令干趴自家服务器
当大厂「卷」Agent，腾讯选择「下产线」
陈天桥旗下AI公司MiroMind打造全球顶尖预测型大模型，性能登顶行业基准
OpenAI从苹果挖了20多人搞硬件，知情人士：苹果创新缓慢、官僚主义令人厌倦
Mini-Omni-Reasoner：实时推理，定义下一代端到端对话模型
北大等提出BEVUDA++，首次解决BEV感知跨域难题，夜间检测性能提升12.9%
TPAMI 2025 | DiffMVS/CasDiffMVS：一种置信度感知的扩散模型，实现轻量且准确的多视图立体三维重建
iPhone 17 Pro 首日即现划痕；传 OpenAI 联手立讯做 AI 硬件；2025 年搞笑诺贝尔出炉
史上最大升级！7亿周活ChatGPT逼宫，谷歌慌了，这次要把AI整个塞进Chrome
谷歌AI或摘千禧年大奖！华人博士破解百年数学难题，首次捕获奇点
登顶多模态推理榜MMMU！UCSD新方法超越GPT-5、Gemini
DeepSeek-R1登顶Nature，8位专家严审通过，大模型「交卷时刻」来了
18岁天才少年，登上Nature封面！
扩散大语言模型也能飞？DPad免训练加速61倍，全局规划照样稳
北京内推 | 腾讯混元大模型X团队招聘大模型/强化学习方向“青云计划”实习生
ICML 2025 | 乱写Prompt更给力？删几个Token，上下文学习立刻“反向觉醒”
不要ViT也不要扩散！OneCAT甩掉编码器，统一多模态自回归模型来了
华为超节点：用「一台机器」的逻辑，驱动AI万卡集群
5555被拒稿，AC接收但PC强拒，NeurIPS揭榜引争议
超强开源模型Qwen3、DeepSeek-V3.1，都被云计算一哥「收」了
攻克大模型训推差异难题，蚂蚁开源新一代推理模型Ring-flash-2.0
给大模型「精准手术」：美团智能客服提出逆向学习技术精准纠偏，风险控制提升38%
Meta新作SyncSeal：用深度学习“封印”同步信息，让数字水印不再怕裁剪和旋转
阿联酋大学CVLab IEEE Fellow团队招收2026春季/秋季全奖博士生
千禧年大奖难题有望突破？AI为流体动力学提供新思路
生物学迎来「ChatGPT时刻」：Evo构建首个AI生成的「基因组」，开启生成式基因设计时代
英伟达50亿美元入股英特尔，将发布CPU+GPU合体芯片，大结局来了？
理解帮助生成？RecA自监督训练让统一多模态模型直升SOTA
投50亿美元，英伟达联手英特尔；谷歌将Gemini加入浏览器；网约车司机平均月入过万
GPT-5攻入数学圈，证明定理快过博士生？网友热议AI新角色
阿里王牌Agent横扫SOTA，全栈开源力压OpenAI！博士级难题一键搞定
ChatGPT负责人深度复盘，爆4o复活内幕！过快下线是失误，将迭代模型人格
全球首个AI基因组诞生，35亿年生命代码重编程！生物学迎「ChatGPT时刻」
芯片大地震，黄仁勋355亿入股！英特尔要为老黄造CPU，股价狂飙30%
新思科技中国30周年，引领AI智能体工程师重塑芯片设计范式
科大讯飞发布面向东盟的多语言大模型及系列产品，布局中国—东盟AI生态大未来
Nature | 20年后你会患上哪些疾病？AI准确预测超1000种疾病患病风险，助力预防
我们还是低估了英伟达
谁在拖慢你的RL？别怪显卡，错的可能是你的PG-loss
ICCV 2025 | Gap即力量！挖掘模态间隔潜力，MG-CLIP实现持续学习SOTA
少样本不够看？给LLM装上“学习引擎”，上下文学习迈入千样本时代
北京内推 | 字节跳动国际电商团队招聘大模型方向算法实习生
OneSearch，揭开快手电商搜索「一步到位」的秘技
17.38 万的大六座 SUV，吉利用银河 M9 敲碎了友商的心
刚刚，OpenAI在ICPC 2025编程赛上满分登顶，Gemini也达到金牌水平
从一个公众号智能体说起：好用的Agent，究竟需要什么?
B站出海的强有力支柱：最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代
腾讯企点营销云发布Magic Agent，营销工具全面AI化
带屏 AI 眼镜登场！Meta「眼镜全家桶」炸街了
通义DeepResearch震撼发布！性能比肩OpenAI，模型、框架、方案完全开源
让机器人「不只是走路」，Nav-R1引领带推理的导航新时代
刚刚，DeepSeek-R1论文登上Nature封面，通讯作者梁文锋
腾讯 AI 的新叙事
传小米 YU7 新车型曝光纽北；李飞飞放出 3D AI 新成果； 49.2%，火山引擎大模型调用份额占半壁江山
小扎豪掷143亿，却换不来AI燃料！数据之争下半场，中国冲出一匹黑马
终结数据荒！智源开源首个Deep Research数据合成框架InfoSeek
我用一张照片，生成了一个能走进去的世界
奥特曼爆料：GPT-5重构彻底一切！一人顶五个团队
最新实测GPT-5-Codex：前端能力碾压，复杂项目轻松搞定，Claude可以扔了!
TPAMI 2025 | 弱监督与自监督引领自动驾驶运动预测新范式，用场景分割“脑补”运动，仅需0.01%标注，性能媲美监督方法
南开大学等提出RAM++：从关注“降质”到关注“内容”，实现鲁棒的全能图像恢复
博士申请 | 新加坡国立大学CoSTA Lab招收人工智能全奖博士/RA/实习生
ICML 2025 | AI福尔摩斯来了！LLaVA-ReID多轮发问，行人重识别一步步锁定
不改参数不重训！CARVE一招纠偏，对比注意力让视觉模型精准聚焦
清华新作颠覆CoT！ParaThinker并行思考，终结单链推理天花板
没想到，音频大模型开源最彻底的，居然是小红书
6.1B打平40B Dense模型，蚂蚁开源最新MoE模型Ling-flash-2.0
「AI助手」真来了？谷歌牵头推进Agent支付协议AP2
腾讯AI Lab首创RL框架Parallel-R1，教大模型学会「并行思维」
阿里开源通义DeepResearch，性能超OpenAI、DeepSeek旗舰模型
华为发布4+10+N中小企业智能化方案，打通迈向智能世界「最后一公里」
LLM开源2.0大洗牌：60个出局，39个上桌，AI Coding疯魔，TensorFlow已死
Cell丨谷歌AI co-scientist联合帝国理工揭开谜团：提出并验证细菌基因转移机制假说
华为首款旅行车 1 小时订单破 5000，余承东再次「封神」？
腾讯、复旦、上海创智学院提出SwiftVideo：首个Continuous-time视频蒸馏加速框架，实现业界最快最高清视频生成
刚刚，李飞飞空间智能新成果震撼问世！3D世界生成进入「无限探索」时代
突破单链思考上限，清华团队提出原生「并行思考」scale范式
刘强东喊话王兴：尊重兴哥，不应是仇人；美机器人公司估值暴涨至390亿美元；iOS 微信支持聊天发实况图｜极客早知道
7亿人每周狂发180亿条消息！OpenAI首次揭秘ChatGPT最火用途
LLM会梦到AI智能体吗？不，是睡着了也要加班
一周休4天！老黄、盖茨站台，网友炸锅：是AI福利，还是裁员信号？
AI精神病爆发！沉迷ChatGPT把人「宠」出病，KCL心理学家实锤
谷歌DeepMind「粪坑淘金」全新方法，暗网毒数据也能训出善良模型
EMNLP 2025 | 跨风格不误判！MoSEs用职业写作风格建模，检测AI文本更稳更准
一招打破瓶颈！HyperTree超树规划：AI掌握层级化推理，复杂任务全面突破
北京内推 | 微软Copilot算法团队招聘大模型推理方向研究型实习生
高阶程序，让AI从技术可行到商业可信的最后一公里
网络顶会获奖！华为提出端网协同RDMA传输架构，解决大规模AI集群网络可扩展性问题
具身智能能力狂飙，安全却严重滞后？首个安全可信EAI框架与路线图出炉！
在端侧 AI 时代正式到来之前，联想想先做好硬件「杀手锏」
火山引擎发布PromptPilot，推动大模型应用高效落地
在「外滩大会·具身智能：从泛化到行动，重塑产业未来」上，这些大牛都说了什么？
国内首个！夸克公开覆盖全阶段医师考试的健康大模型测试集
蚂蚁百灵开源轻量级MoE语言模型Ling-mini-2.0，1.4B激活性能比肩大规模模型
浙大侯廷军团队联合IIT等发布系统综述：全景解析机器学习加持下的「增强采样」方法
斯坦福大学提出PSI：一种通过概率结构集成，从数据中学习可控、可灵活提示的世界模型的新系统
BMVC 2025 | 无需源数据，Grad-CL如何利用梯度引导实现精准的眼底图像分割？
谁说Scaling Law到头了？新研究：每一步的微小提升会带来指数级增长
从少样本到千样本！MachineLearningLM给大模型上下文学习装上「机器学习引擎」
最新披露，骑手收入真实情况揭晓
刚刚，OpenAI发布GPT-5-Codex：可独立工作超7小时，还能审查、重构大型项目
多模态BUG修复新SOTA：慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

比思维链准43%！逻辑脑+大模型直觉，推理可靠性大幅提升

2025-09-22未知作者来源

新智元报道

编辑：LRST

【新智元导读】来自中德的研究团队发布最新成果，给大模型外挂「逻辑脑」：用答案集编程当慢思考，LLM当快直觉，空间推理准确率一口气提高四成多。这套会自我修正的「神经-符号」双系统，让AI既能说清每一步逻辑，又能跨任务迁移，向更可靠的通用推理迈出关键一步。

一图看透全球大模型！新智元十周年钜献，2025 ASI前沿趋势报告37页首发

大语言模型（LLMs）已在文本生成、代码编写乃至多模态任务中展现出惊人的能力，但在涉及严谨逻辑与物理的空间推理任务上，它们仍显得力不从心。

比如，当模型需要理解多个物体之间的相对位置关系，并在复杂语境下进行多步骤推理时，往往容易出现「逻辑断裂」：可能在中间步骤中虚构错误事实，或偏离目标，最终导致答案不可靠。

这一问题在空间推理任务中尤为突出。空间推理要求模型能像人一样，推演出「桌子在椅子左边，灯在桌子上方，因此灯也在椅子左边」这样的复杂链条。

然而，尽管「思维链（Chain-of-Thought）」等提示工程方法在一定程度上提升了模型的推理表现，但在多步骤、动态变化的场景中，它们依旧难以保证逻辑一致性。

为了弥合神经网络的模式识别能力与符号系统严谨逻辑之间的鸿沟，来自德国图宾根大学、斯图加特大学（王荣）和同济大学（孙坤）的科研人员合作研究发表在著名的人工智能和深度学期刊《神经网络》（Neural Networks）上，该研究提出了一种创新的神经-符号（neural-symbolic）框架。

论文链接：

https://www.sciencedirect.com/science/article/pii/S0893608025009025

该框架通过一个精巧的自动迭代反馈循环（而非手动），成功地将大语言模型与一种名为「答案集编程」（Answer Set Programming, ASP）的声明式逻辑编程系统相结合，显著提升了机器的空间推理能力。

研究人员借鉴了认知科学中的「双过程理论」，该理论认为人类思维分为两个系统：系统1负责快速、直观的联想式思考，而系统2则进行缓慢、审慎的规则化推理。

在这套新框架中，LLM强大的语言理解和模式识别能力扮演了类似「系统1」的角色；而ASP作为符号推理的主干，则承担了「系统2」的职责，负责精确、可验证的逻辑推导。

基于DSPy框架的神经-符号管道框架

该框架的工作流程可以概括为一种「翻译-执行-修正」的协同模式：

1）翻译 (Semantic Parsing): 首先，LLM接收自然语言形式的上下文和问题，并将其翻译成ASP能够理解的、结构化的逻辑事实与规则代码。

2）执行 (Logical Reasoning): 接着，ASP求解器接管这些逻辑代码，利用其强大的非单调推理能力（即在信息不完整的情况下进行推理），计算出所有满足约束条件的稳定解。

3）修正 (Iterative Feedback): 这是整个系统的核心创新。以往的神经-符号方法中，LLM生成的逻辑代码常常因语法或逻辑错误而导致整个系统失败，成功率有时低至17%

新框架引入了LLM与ASP求解器之间的迭代反馈循环。如果ASP在执行中发现错误，系统会将错误信息反馈给LLM，指导其对生成的逻辑程序进行多轮修正，直至代码在语法和语义上都完全正确。

整个系统基于模块化的DSPy框架构建，它为LLMs和符号求解器之间的无缝双向交互提供了支持，使得这种复杂的协同工作流得以实现。

自然语言查询转换为ASP表示的过程

在复杂基准测试中表现卓越

研究团队在两个不同类型的基准任务上检验了框架：

StepGame：结构化的合成数据集，用于测试多步推理。

SpartQA：语言与逻辑复杂度极高，包含 3D 空间关系、多重量词（如「所有」「仅仅」）等挑战。

结果显示，该框架在StepGame上的准确率达到82–93%，在SpartQA上为71–80%。

相比直接提示和思维链方法，准确率最高分别提升了43%和25%

更重要的是，这一框架使得推理过程透明、可追溯。每一步逻辑都能通过符号系统进行验证和修正，避免了「黑箱式」推理难以解释的问题。

在测试数据集SpartQA上LLMs与符号求解器的迭代反馈表现

通往更可靠通用AI的潜力

研究团队强调，这项成果的意义不仅在于攻克空间推理，更在于提供了一种神经网络与符号逻辑深度融合的范式。

这条路径有望解决 AI 长期存在的可解释性、可靠性与泛化性难题。

尤其值得一提的是，该技术展现出很强的泛化能力：不仅能处理空间推理任务，还可以扩展到各种需要严谨逻辑链条的复杂任务场景，如法律推理、多模态推理、工程规划乃至科学研究等。

通过为LLMs配备外部「逻辑脑」，系统可以在语言理解与逻辑推理之间实现类似人类的「双系统」协作，不仅能产出更高质量的答案，还能展现出明确的逻辑链条。

这种具备自我修正与类人多组件推理能力的混合架构，这种能自我修正、跨任务泛化的「人类式推理」新路径被认为是迈向通用人工智能（AGI）的重要一步。

换句话说，这项研究让大模型从「能说会道」，真正走向「能想会推理」，并具备跨任务迁移与应用的潜力。

参考资料：https://www.sciencedirect.com/science/article/pii/S0893608025009025

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652629554&amp;idx=3&amp;sn=f4a3a225e71b1015d6ca6884c63e1113&amp;chksm=f0550c0a4ea7b6bd26fe1bcb09ee03ae0f50221430bb99a405be6ef4950c0a0ec9adda9ec484&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/tD4wKr5iU1&amp;maxage=1y"  width="1px"></div></div></body></html>

动态列表

比思维链准43%！逻辑脑+大模型直觉，推理可靠性大幅提升

新智元报道

类别

资源

联系我们