动态列表

  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒
  • 奥特曼下注27岁神秘青年,「复活」世界最顶级实验室
  • AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
  • Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」
  • 少年沉迷AI自杀,9岁遭性暗示!这门「孤独生意」,正推孩子入深渊
  • NeurIPS 2025 | 中科院携手快手发布LiveStar:首个“会说话、懂沉默”的直播AI,推理速度提升1.53倍
  • ConsistEdit:重新定义AI视觉编辑,港科大、清华等机构提出MM-DiT注意力控制新方法
  • 双十一算力真敢卷!RTX 5090低至0.69元/时,同预算跑更多实验
  • AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”
  • 北京内推 | 阿里高德地图团队招聘大模型方向算法实习生(可长期/转正)
  • 对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
  • 深度复盘:大疆是如何成为影像领域新巨头的?
  • 传李想亲抓人事,华为系高管退出理想;Meta 首席 AI 科学家杨乐昆离职创业;AI 减肥或致饮食失调
  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东
  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!
  • AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道
  • 谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
  • 狗也被AI抢饭碗?好莱坞动物演员全下岗,观众直接翻脸了!
  • ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了
  • 小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」
  • NeurIPS25 | 清华&北大提出LinearDiff-ViT:让Transformer学会“找不同”,实打实提升模型性能
  • AI 六巨头罕见同台,辨论 AI 泡沫;SpaceX 公布简化版登月舱方案;王者荣耀年度总决赛首次在鸟巢举办
  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 复盘大疆 Pocket 的七年:从「定义产品」到「定义时代」
  • TRO'25开源|机器人建图的终局?一个框架搞定光学、几何与语义!
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元

视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源



  新智元报道  

编辑:KingHZ
【新智元导读】谷歌早有类似技术?DeepSeek-OCR开源引发战略拐点,长文本渲染图像框架如Glyph验证视觉压缩的普适性。但故事还没完。
DeepSeek-OCR杀疯了!

前段时间,DeepSeek开源的DeepSeek-OCR,提出了「上下文光学压缩」,高效得邪门——

特别是,在长上下文解码固定97%的精度下,OCR版本所需的视觉标记比文本标记少10倍。

也就是说,OCR版本的信息压缩能力比文本版本强10倍。在20倍压缩下,仍能保持60%的准确率。

长上下文解码,即模型将信息压缩为潜在表示并重建的能力。换句话说:对AI而言,单张图像可以用更少的token来表示完整文档

这燃起了计算机视觉研究者的新希望:图像更关乎智能的本质,文本只是表象!

Karpathy不装了,摊牌了——承认自己只是「假装」在做自然语言处理(NLP),但心在是计算机视觉(CV)。Karpathy狂赞DeepSeek新模型,表示它终结分词器时代。

但DeepSeek-OCR到底有多强?视觉能压缩一切吗?图像和文本狭路相逢,到底谁能胜出?

下面👇,我们一探究竟🔬。

DeepSeek-OCR很火
开源还得是DeepSeek

毫无疑问,DeepSeek-OCR真的很火——

不仅Github开源项目斩获了超20K星🌟。

Github:https://github.com/deepseek-ai/DeepSeek-OCR

HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-OCR

甚至「先天下之忧而忧,后天下之乐而乐」就因为出现在提示词例子中,一群英语用户在讨论翻译对不对:

DeepSeek意外地推广了范仲淹这句名言。

而且,DeepSeek-OCR确实很实用。

凌晨4点,网友Brian Roemmele实测证明:

DeepSeek-OCR不仅能识别单个小格,它甚至可以在几秒内扫描整张缩微胶片(microfiche), 而且百分之百保留全部数据


还能完整理解文本内容、复杂图纸以及它们的上下文!

直呼自己「彻底改变了离线数据整理的方式」!

接下来,他还要要试试看,DeepSeek-OCR能不能一次性读懂40多年前的「计算机存储」打孔卡

他在20世纪80年代贝尔实验室的垃圾桶,收集了73箱Filmsort计算机打孔卡,上面嵌有Microfiche微缩胶片单元。

使用DeepSeek-OCR,alphaXiv从50多万篇AI主题arXiv论文的表格/图表中提取所有数据集,只花了1000美元,而使用Mistral OCR完成相同任务将花费7500美元。

DeepSeek-OCR还能将任天堂的年报(下图右)转换成了Markdown 格式(下图左)

关键的是,连一个错字都没找到。逗号和句点也看起来完美无缺。

微软的云/AI架构师Axel Dittmann,刚刚在本地跑了DeepSeek-OCR,速度惊人:

整图分析加文本提取仅用了11.1秒。


这已经不是简单的提速OCR了,这是实时的文档级AI。

HuggingFace还比较了多个OCR模型。

在下列链接,可直接可体验不同OCR模型的效果:

https://prithivmlmods-multimodal-ocr3.hf.space/

但有个问题,DeepSeek-OCR目的是探索视觉-文本压缩的边界——

从大语言模型视角出发,专注研究视觉编码器作用的模型。

作者不仅仅是为了升级OCR,更是要探讨机器如何感知和处理数据的范式转变。

实用性高是工程成就,但领域内研究人员更在意的是理论突破。

它能为AI新时代吹响号角吗?未来,视觉感知能否胜过文本?计算机视觉能否东山再起?

想法早已有之,但问题是什么?

为什么全网热议DeepSeek-OCR?

除了实用性外,网友Feffrey  Emanuel用Claude Opus 4.1总结了论文的关键洞察——

只要编码器-解码器配对得当,密集型视觉表示比线性文本Token更高效。

这意味着:

🔹 上下文窗口将变得「弹性」不再受限于固定的128k Token长度——可以把旧上下文动态压缩成图像存储!

🔹 视觉优先架构将成主流未来的大语言模型可能会先把所有文本转为视觉表示来处理,文本Token仅用于生成阶段

🔹 「计算开销」其实是人为制造的假象视觉Token之所以「贵」,只是因为我们用错了方式——过去它被当成像素表示,而不是压缩的语义空间

🔹 生物启发是对的:「一图胜千言」并不是比喻,而是经过正确编码后在计算层面上成立的事实

真正颠覆性的意义在于——我们过去可能从一开始就搞反了LLM的构建方式。

我们一直在做的是「以文本为主、视觉附加」的模型架构,而最优解可能是「以视觉压缩为核心,文本生成只是输出层」

论文从根本上质疑了业内的前提假设「文本Token是文本信息最高效表达方式」,

网友甚至推测谷歌早已有类似的方法,但密而不发,严守机密。

而且网友Chirag称,谷歌在语言上公布了类似的方法。

从技术与战略层面看,这无疑是一个决定性的拐点。

DeepSeek的光学压缩技术,有效突破了AI长期以来的瓶颈:长上下文处理效率低下。

它通过将文本转化为高密度的视觉Token,不仅大幅降低内存与计算开销,还能保持语义精度,由此加速了文档级推理、实时翻译与多模态对齐等关键任务。

刚刚,清华大学等也发布了一个将长文本渲染成图像并使用视觉-语言模型(VLM)处理的框架Glyph。

这种方法在保留语义信息的同时,大幅压缩了文本输入。

Github:https://github.com/thu-coai/Glyph

直接阅读视觉文本而不是文本,这种想法早已有之。

Meta超级智能实验室高级研究科学家、德克萨斯大学奥斯汀分校博士江亦凡,读完DeepSeek-OCR论文后,就觉得这不是什么新东西:

直接阅读视觉文本而不是将文本转换为utf-8格式的想法,似乎是一个长期讨论的概念,甚至在LLM 时代之前就是这样。


人类阅读书籍、听音频、触摸盲文,但并不使用utf-8。

在19年,国内的研究者就发现,在多项中文NLP任务中,基于字形的模型持续优于传统的词ID/字ID模型,在多个任务上刷新SOTA表现。

预印本链接:https://arxiv.org/abs/1901.10125

题目:Glyce: Glyph-vectors for Chinese Character Representations

总之,在不同应用领域,多篇论文探讨过这一技术路线,包括但不限于:

Language Modelling with Pixels


Robust Open­Vocabulary Translation from Visual Text Representations  


Autoregressive Pre-Training on Pixels and Texts  


Pix2Struct: Screenshot Parsing as Pretraining for Visual Language


Understanding  Improving Language Understanding from Screenshots


上下滑动查看

对AI训练而言,像素优于字符。或许,这早已是「江湖传说」。但囿于工具、算力或企业文化等等,一直没有开源的类似工具出现。

即便只是工程价值,DeepSeek-OCR已推动了相关研究重回AI行业视野。

不过,视觉和文本,到底谁更贴近智能的本质?

视觉狭路遇上文本
Karpathy笑太早了?

对LLM而言,视觉>文本。这是大家对DeepSeek-OCR的第一印象。

但Palantir前员工Igor Zalutski提出了一个问题:

如果「音频token」被证明更加高效会怎样?

语言毕竟始于声音,而文字是后来才发明的(如象形文字)。而且对许多人来说,阅读时脑海中会产生声音。

Keras3合作者、机器学习研究员Aakash Kumar Nain,指出了他对DeepSeek-OCR的两大「抱怨」:

一方面,  包含文本的图像不能无限压缩,信息细节很容易在过程中丢失;


另一方面,我反感把压缩和记忆拟人化的表达方式——我们是否可以避免动不动就用「拟人类」的框架去解释一切?

在他看来,目前提取图像Token的方式仍称不上最优

DeepSeek-OCR之所以能够跑通,主要是得益于局部注意力与全局注意力的混合机制,而不是提取方式本身有多高效。

其实,LayoutLM系列论文给出了更系统、更结构化的视觉文本对齐方式,从而在信息保留、空间结构理解和上下文建模方面做得更好。

预印本链接:https://arxiv.org/abs/1912.13318

标题:LayoutLM: Pre-training of Text and Layout for Document Image Understanding

威斯康星大学麦迪逊分校电子与计算机工程系副教授Kangwook Lee,更严肃地讨论了「DeepSeek-OCR热潮」。

首先,在DeepSeek-OCR之前,剑桥大学的研究者就已展示了将Prompt Token压缩500倍的可行性——

而且并没有借助将文本转为图像的策略

论文链接:https://aclanthology.org/2025.acl-long.1219/

标题:500xCompressor: Generalized Prompt Compression for Large Language Models

DeepSeek-OCR的成功,不应归因于图像表示本身的「魔力」。

文本表示本身(无论用何种tokenizer)并没有本质问题。

同样道理,你也可以反其道而行之:比如将图像转为一串文本Token(每个Token代表RGB值),依然能跑通任务——这在LIFT论文中已有验证。

论文链接:https://uw-madison-lee-lab.github.io/LanguageInterfacedFineTuning/

真正的核心启示在于——当前LLM的Embedding空间巨大且可能非常浪费。

现在,大家还远未充分利用这些表示空间的潜力。越来越多研究也在印证这一点。

比如,下面2024年的论文表明:如果你在上下文中混合多种任务的演示,模型能够同时完成多个ICL预测任务

链接:https://arxiv.org/abs/2410.05603

标题:Everything Everywhere All at Once: LLMs can In-Context Learn Multiple Tasks in Superposition

这再次说明,上下文空间和表示空间的利用效率,才是关键突破口

真正应该领悟的关键要点:

  • DeepSeek-OCR确实很酷

  • 但通过对压缩文本令牌进行微调,你可以实现更高的令牌缩减率

  • 更多证据表明,大语言模型并未充分利用其庞大的嵌入空间以及在推理时投入的大量计算资源

或许,这才是研究的真谛:research = re search——

做实验之前,你无法确定结果。

技术争鸣的价值,不在宣布赢家,而在暴露盲区。下一代AI不必「以哪个模态为圣」。

AI范式的成熟,恰恰始于这种「去神话化」的清醒。

参考资料:
https://x.com/Kangwook_Lee/status/1980709769015869488
https://x.com/Kangwook_Lee/status/1980709454522744902
https://x.com/doodlestein/status/1980282222893535376

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652645406&amp;idx=3&amp;sn=0b7ced544485580105a08cdf4b77b741&amp;chksm=f0bf882549ba6a4bbf98d44f76189f70066b3ee492433a2b966d4942706e66da44c5f28406f9&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/12yqXp5rXy&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们