动态列表

  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元
  • 蔚来,破 4 万!
  • 今年双十一最大的赢家是这张表
  • 复旦大学&StepFun提出WithAnyone:告别“复制粘贴脸”,实现可控、高保真的多人ID一致性生成
  • 大道至简,中科院等提出OneRef:统一视觉定位和指代分割
  • 极客公园创新大会 2026 首批嘉宾揭晓!
  • 自回归不必按token算了:微信AI × 清华用CALM直接「整段」预测
  • 北京内推 | 美团招聘大模型算法实习生(IM全渠道)
  • 达摩院联合浙大、港理工推出PixelRefer:多模态大模型迈向像素级视觉理解
  • Altman 怒喷 OpenAI 唱衰者;小鹏发布新一代人形机器人 IRON;苹果支付 10 亿美金,新 Siri 将引入谷歌 Gemini|极客早知道
  • 别被一堆Strong Accept吓住:德州农工×康奈尔实锤论文晒分“系统性虚高”
  • 记忆让机器人更聪明:原力灵机提出MemoryVLA化解长时程任务操作难题
  • 博士申请 | 南洋理工大学王琦琛老师课题组招收数据库方向全奖博士/博后
  • 151% 的增长背后,它正在成为 AI 的「新入口」
  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • 山姆更新后遭会员疯狂吐槽;Switch2 销量破千万;小米马志宇警告存储涨价:明年最新的成本预估“有点惊悚”|极客早知道
  • Sketch-to-Layout,从草图到布局!DeepMind & EPFL 在设计领域的新工作
  • 为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA
  • NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确
  • 这个不「瞎 BB 」的 AI 硬件,给了我真正的「陪伴」丨New Things
  • Rokid 乐奇联手 BOLON 眼镜:眼镜巨头依视路的中国棋局
  • 跟一位日本比亚迪车主聊了聊,才明白我们对「出海」有多天真
  • 宁德时代赚走185亿,车企却不想再给「宁王」打工了
  • 从「绝望」到一轮融资43亿元:新石器做对了什么?
  • NeurIPS 2025 | 用蛋白质动态词表“搭积木”,ProDVa高效组装可折叠新蛋白
  • 全注意力、复杂推理不掉速:MiniMax M2把Agent做成了「可执行能力」
  • 北京内推 | 阿里通义实验室对话智能团队招聘大模型方向研究型实习生
  • 豆包,正在悄悄开启「电商新链路」
  • OpenAI 与 AWS 达成 380 亿美元算力合作;新 Siri 付费采用 Gemini;字节试行「豆包股」 | 极客早知道
  • Karpathy点赞NUS新研究:RL微调不稳定的关键根源,指向BF16精度本身
  • ICCV 2025 | 高德提出SeqGrowGraph:以序列化图扩展革新车道拓扑生成
  • 我体验了一下 AI 时代的「家」:快跑,到处都是 AI
  • 每天都和 AI 聊天,你可能已经是个「神经病」
  • 苹果,一赚「解」千愁
  • 多媒体顶会ACM MM 2025 最佳论文公布,从“看懂”到“会用”,再到“会思考”:揭示AI与物理世界融合新篇章
  • 顶刊ISPRS (IF 12+) | 400+参考文献,遥感图像超分辨率最新综述!
  • AMD发布E-MMDiT:仅304M参数,单节点1.5天训练,实现高效图像合成新基准
  • T1 零封 TES 战队,中国战队无缘 S15 总决赛舞台;英伟达合作制药巨头打造超级计算机;理想汽车汤靖详解 MEGA 起火事件|极客早知道
  • NeurIPS 2025 | 电子科技大学联合A*STAR提出SCOPE:兼顾显著性与覆盖率,实现高效多模态大模型令牌剪枝
  • ICCV 2025 | 卡内基梅隆大学空间可变自动对焦:单次拍摄实现全场景清晰,重新定义计算摄影
  • 特斯拉 Cybercab 实车曝光,部分量产;何小鹏谈雷军竞争:未来更期待对手是小米;黄仁勋完成 10 亿美元股票出售

LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律



  新智元报道  

编辑:peter东
【新智元导读】LLM再下一城!伯克利研究证明:OpenAI的o1被证明也具有匹敌人类语言学家的元分析能力。

在人类诸多才能之中,哪些才是人类所独有的?

自古希腊哲人亚里士多德以来,语言便被视为最能彰显人之本性的标志。他曾言:人类乃「具有语言的动物」。

即使当今的大语言模型如ChatGPT已能在表层上模拟人类的日常言谈,学者们依然追问:

在人类语言的深处,是否蕴藏着某些独特的结构与特质,是任何其他生物的沟通方式,乃至AI的运算体系,皆无法真正企及的?

加州大学伯克利分校语言学家、罗格斯大学的携手,让多个大语言模型经受一系列语言学测试——其中包括要求模型归纳虚构语言的规则。

虽然大多数大语言模型未能像人类那样解析语言学规则,但有一个模型展现出远超预期的惊人能力。它能像语言学研究生那样分析语言——划分句子成分、解析多重歧义,并能运用递归等复杂语言学特征。

研究者Gašper Beguš表示,这一发现「挑战了我们对人工智能能力的认知」。

AI会说话不稀奇,会解释才稀奇——

如果语言是让我们成为人类的关键,那么如今大语言模型获得了「元语言」能力,这又意味着什么呢?

LLM构建无穷递归

想象一下:你在搭一座一层套一层、像俄罗斯套娃一样的「句子塔」。

每套进一层,理解难度就指数级上升。

这种结构,在语言学里叫「中心嵌入」(center embedding),曾被知名语言学家乔姆斯基称为能定义人类语言与思维的决定性特征。

比如这句话:

The worldview that the prose Nietzsche wrote expressed was unprecedented.

(大意为:尼采所写的那篇散文所表达的世界观是前所未有的。)

表面上看平平无奇,但如果你拆开它的「语言洋葱」:

最外层:The worldview [...] was unprecedented(这个「世界观」前所未有); 

套进去一层:that the prose [...] expressed(是「那篇散文所表达的」); 

再往里一层:Nietzsche wrote(而这篇散文是「尼采写的」)。

这就像在一个句子中间,又塞进一个完整的句子,再在那个句子里塞进另一个句子——三层套娃,层层递归。

人类能理解这样的句子,但之前,人们认为这样的能力大模型不具备。

上述句子在真实对话中几乎从未出现过——因为大家会觉得它「太绕了!」

所以,任何语言模型如果只是靠「背书」,根本不可能见过,自然也无法识别出这种例子。

语言学家们认为,人类语言从有限词汇和有限规则中生成无限可能句子,这种能力归因于无限递归。

迄今为止,还没有令人信服的证据表明其他动物能够以复杂的方式使用递归。

图1:不同大模型识别多重递归,绘制正确语法树的比例

然而,该研究指出在众多大模型中,唯有OpenAI o1模型不仅看懂包含多重递归的句子(图1)。

o1不仅能如同语言学家那样,以接近100%的正确率画出正确的树状结构,还能将本就复杂的句子变得更多一层。

图2:该句子对应的正确语法树

当它被问:「能不能再加一层递归?」o1回复:

The worldview that the prose that the philosopher Nietzsche admired wrote expressed was unprecedented. 

「那位尼采所敬仰的哲学家所撰写的散文所表达的世界观是前所未有的。」

这说明o1不仅能够使用语言,还能够思考语言,具备语言能力(metalinguistic capacity )。

由于语言模型只是在预测句子中的下一个单词,人对语言的深层理解在质上有所不同。因此,一些语言学家表示,大模型实际上并没有在处理语言

这项研究的结论看起来是对上述观点的否定

大模型能区分歧义
也能深入理解句子

想象一下,你听到下面的话:「Eliza wanted her cast out.」

乍一听,好像就是「Eliza想把她的cast赶出去」?

但「cast」这个词既可以是动词(「驱逐」),也可以是名词(「石膏」)!

于是这句话就有两种不同的含义,分别是

Eliza想要她的石膏被拿出去,

Eliza想把她赶出去。

这样识别包含多义性句子的能力,之前同样被认为大模型不具备。

人类拥有很多常识知识,使我们能够排除歧义。但大模型很难具有这样的常识知识水平。

然而该研究表明,o1可正确识别两种结构,并为每种生成了符合语言学规划的句法树。其他模型(如 GPT-4、Llama 3.1)只会生成不合语法的结构,还会对语义产生误解。

该研究还考察了大模型在音韵学相关任务上的表现——

音韵学是研究声音模式以及最小的声音单位,即音素的组织方式。

例如,在英语中,给以「g」结尾的词加上「s」会发出「z」的音,就像「dogs」一样。但给以「t」结尾的词加上「s」听起来更像标准的「s」音,就像「cats」一样。

该研究一口气创建了30种新的迷你语言,以了解大模型是否能够在面对新生成的虚拟语言时,在没有任何先验知识的情况下能不能正确推断语音规则。

结果出人意料,即使是在这些虚构的语言上,o1在音韵相关的任务上表现依旧出色

大模型比人类更好地理解语言吗?

从上述三个例子可以看出,曾经那些被认为仅仅人类能够拥有的语言理解能力,大模型如今也具备了。

2023 年著名语言学家乔姆斯基在《纽约时报》上写道:「语言的正确解释很复杂,不能仅仅通过浸泡在大数据中就能学会。」

该文认为尽管 AI 模型在运用语言方面可能很擅长,但它们并不具备以复杂方式分析语言的能力。

在此思潮影响下,即使ChatGPT在各方面上复制了自然语言,公众仍想知道大模型是否有人类语言的特定特征能不能由大模型复现。

这当然很有必要,随着社会越来越依赖大模型,了解它在哪些方面能成功以及哪些方面会失败变得越来越重要。

语言分析是评估语言模型推理能力与人类相似程度的理想测试平台

而o1能够以与语言学家相似的方式分析语言,例如绘制句子图、解决多个歧义含义,并利用递归等复杂的语言特征

但我们发现这一现象后,人们不禁会问下面两个问题:

第一个问题是为何只有o1可行,其它大模型表现都差一大截。

回答是相比其它模型,o1 的优势很可能源于思维链(类似Deepseek的深度思考),使其能像人类语言学家一样逐步推理、验证假设、构建抽象规则。

第二个问题是当模型的性能随着规模变大而变大时,大模型是否有一天会比我们更能准确的理解语言吗?

对于这个问题的回答,目前还没有定论。

一方面,任何的大模型在语言学上还没有提出过原创性的观点,也没有教给我们关于语言的新知识。

另一方面,增加计算能力和训练数据,语言模型最终会在语言技能上超越我们,看不出有什么理由阻止语言模型展现出比我们更好的语言理解能力。

研究尚不足以宣称「机器理解语言胜于人类」,但足以改变评价口径:对模型的考察,应从「任务产出」转向「结构解释」。

当可解释性成为首要指标,AI研究、教育与应用治理将迎来同一套标准——把「为什么对」放在「对不对」之前。

参考资料:
https://ieeexplore.ieee.org/document/11022724
https://www.quantamagazine.org/in-a-first-ai-models-analyze-language-as-well-as-a-human-expert-20251031/


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652643197&amp;idx=3&amp;sn=00aa710798c4378d6ad61459a7fadaa7&amp;chksm=f0c3dae1fa30f8d08a590b5b696b9c9569bbaea8090276b3f77f16ba4cc91e3091961ff8aa4e&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/Cv3XYhuige&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们