新智元报道
新智元报道
【新智元导读】来自中德的研究团队发布最新成果,给大模型外挂「逻辑脑」:用答案集编程当慢思考,LLM当快直觉,空间推理准确率一口气提高四成多。这套会自我修正的「神经-符号」双系统,让AI既能说清每一步逻辑,又能跨任务迁移,向更可靠的通用推理迈出关键一步。
一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
大语言模型(LLMs)已在文本生成、代码编写乃至多模态任务中展现出惊人的能力,但在涉及严谨逻辑与物理的空间推理任务上,它们仍显得力不从心。
比如,当模型需要理解多个物体之间的相对位置关系,并在复杂语境下进行多步骤推理时,往往容易出现「逻辑断裂」:可能在中间步骤中虚构错误事实,或偏离目标,最终导致答案不可靠。
这一问题在空间推理任务中尤为突出。空间推理要求模型能像人一样,推演出「桌子在椅子左边,灯在桌子上方,因此灯也在椅子左边」这样的复杂链条。
然而,尽管「思维链(Chain-of-Thought)」等提示工程方法在一定程度上提升了模型的推理表现,但在多步骤、动态变化的场景中,它们依旧难以保证逻辑一致性。
为了弥合神经网络的模式识别能力与符号系统严谨逻辑之间的鸿沟,来自德国图宾根大学、斯图加特大学(王荣)和同济大学(孙坤)的科研人员合作研究发表在著名的人工智能和深度学期刊《神经网络》(Neural Networks)上,该研究提出了一种创新的神经-符号(neural-symbolic)框架。
论文链接:
https://www.sciencedirect.com/science/article/pii/S0893608025009025
该框架通过一个精巧的自动迭代反馈循环(而非手动),成功地将大语言模型与一种名为「答案集编程」(Answer Set Programming, ASP)的声明式逻辑编程系统相结合,显著提升了机器的空间推理能力。
研究人员借鉴了认知科学中的「双过程理论」,该理论认为人类思维分为两个系统:系统1负责快速、直观的联想式思考,而系统2则进行缓慢、审慎的规则化推理。
在这套新框架中,LLM强大的语言理解和模式识别能力扮演了类似「系统1」的角色;而ASP作为符号推理的主干,则承担了「系统2」的职责,负责精确、可验证的逻辑推导。
该框架的工作流程可以概括为一种「翻译-执行-修正」的协同模式:
1)翻译 (Semantic Parsing): 首先,LLM接收自然语言形式的上下文和问题,并将其翻译成ASP能够理解的、结构化的逻辑事实与规则代码。
2)执行 (Logical Reasoning): 接着,ASP求解器接管这些逻辑代码,利用其强大的非单调推理能力(即在信息不完整的情况下进行推理),计算出所有满足约束条件的稳定解。
3)修正 (Iterative Feedback): 这是整个系统的核心创新。以往的神经-符号方法中,LLM生成的逻辑代码常常因语法或逻辑错误而导致整个系统失败,成功率有时低至17%
新框架引入了LLM与ASP求解器之间的迭代反馈循环。如果ASP在执行中发现错误,系统会将错误信息反馈给LLM,指导其对生成的逻辑程序进行多轮修正,直至代码在语法和语义上都完全正确。
整个系统基于模块化的DSPy框架构建,它为LLMs和符号求解器之间的无缝双向交互提供了支持,使得这种复杂的协同工作流得以实现。
自然语言查询转换为ASP表示的过程
研究团队在两个不同类型的基准任务上检验了框架:
StepGame:结构化的合成数据集,用于测试多步推理。
SpartQA:语言与逻辑复杂度极高,包含 3D 空间关系、多重量词(如「所有」「仅仅」)等挑战。
结果显示,该框架在StepGame上的准确率达到82–93%,在SpartQA上为71–80%。
相比直接提示和思维链方法,准确率最高分别提升了43%和25%
更重要的是,这一框架使得推理过程透明、可追溯。每一步逻辑都能通过符号系统进行验证和修正,避免了「黑箱式」推理难以解释的问题。
在测试数据集SpartQA上LLMs与符号求解器的迭代反馈表现
研究团队强调,这项成果的意义不仅在于攻克空间推理,更在于提供了一种神经网络与符号逻辑深度融合的范式。
这条路径有望解决 AI 长期存在的可解释性、可靠性与泛化性难题。
尤其值得一提的是,该技术展现出很强的泛化能力:不仅能处理空间推理任务,还可以扩展到各种需要严谨逻辑链条的复杂任务场景,如法律推理、多模态推理、工程规划乃至科学研究等。
通过为LLMs配备外部「逻辑脑」,系统可以在语言理解与逻辑推理之间实现类似人类的「双系统」协作,不仅能产出更高质量的答案,还能展现出明确的逻辑链条。
这种具备自我修正与类人多组件推理能力的混合架构,这种能自我修正、跨任务泛化的「人类式推理」新路径被认为是迈向通用人工智能(AGI)的重要一步。
换句话说,这项研究让大模型从「能说会道」,真正走向「能想会推理」,并具备跨任务迁移与应用的潜力。
<br>
<a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652629554&idx=3&sn=f4a3a225e71b1015d6ca6884c63e1113&chksm=f0550c0a4ea7b6bd26fe1bcb09ee03ae0f50221430bb99a405be6ef4950c0a0ec9adda9ec484&scene=0#rd" target="_blank">文章原文</a>
<br>
<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/tD4wKr5iU1&maxage=1y" width="1px"></div></div></body></html>