动态列表

  • 全球首个「长肌腱」AI机器人量产!Nature盛赞的中国方案惊艳IROS现场
  • 甲骨文推出全球最大AI超算,作为OpenAI「星际之门」算力核心
  • MagicOS已成世界「第三极」,荣耀拿下AI大战叙事权
  • 美国拟减40%国际生,留学风向要变?Nature曝全球高校大洗牌
  • 美 NSA 被曝网攻中国「时间心脏」;微博王高飞:企业别把批评和黑公关混为一谈;传运营艰难,安世中国发公开信回应
  • 扎克伯格急了!Meta内部文件曝光:宁用竞品,也要废掉祖传系统
  • 浙大推出首个「多图应用题」基准GSM8K-V,全面评估 VLM数学推理能力
  • 英伟达4段简短提示词,IOI夺金!开源模型也能征服最难编程竞赛
  • 超越纯视觉模型!不改VLM标准架构,实现像素级深度预测
  • 5万美元筛选「超级婴儿」, 智商提升15点?马斯克被曝是客户!
  • NeurIPS 2025 | KAUST与MetaAI提出Vgent:图增强RAG,长视频理解性能超越SOTA 8.6%
  • TPAMI 2025 OccScene:联合扩散框架,同时推进感知与生成进步,3D场景生成新突破!
  • 不靠RL、不用训练:哈佛「Power Sampling」让基座模型推理媲美GRPO
  • 不用微调!像打方向盘一样“操控”大模型思考:Steering正在改写推理范式
  • 中国AIGC用户破5亿,增长1倍;今年超7成外卖低于15元;新能源事故,「破窗锤」被网友买爆|极客早知道
  • AI芯片战争关键一役!英伟达最强Blackwell首次「美国造」
  • 数学界地震!GPT-5连破10道「百年悬案」,陶哲轩:AI革命才刚开始
  • 前OpenAI研究员跨界做文创:Ilya发型帽子走红,AI成潮牌!
  • 训练成本暴降99%,35秒出1分钟高清视频!英伟达MIT等引爆视频AI革命
  • Karpathy泼冷水:AGI要等10年!根本没有「智能体元年」
  • 早鸟票倒计时2天!全国大模型智能生成大会:推理、多模态、智能体前沿集结
  • First Try Matters,不是Aha Moment:邴立东团队揭示推理模型靠首答,不靠反思
  • 一致性轨迹强化学习登场:上海AI Lab让扩散语言模型实现全并行少步数推理
  • 传 iPhone 17 Air 表现不佳,砍百万产量;黄仁勋:英伟达中国份额从 95% 降到 0%;AI 致维基百科访问显著下降
  • 马普所&谷歌等提出AnyUp:无需再训练的通用特征上采样,推理即用,效果SOTA!
  • 北大等提出MaskDCPT:通用图像修复预训练新范式,PSNR提升3.77dB
  • 可处理上万变量,攻克高维时序预测难题!华人团队开源模型、基准
  • Bengio推AGI「高考」,GPT-5单项0分
  • Hassabis官宣用AI点燃「人造太阳」!无限能源时代加速到来
  • 全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA
  • 太狠了,四条腿被锯掉也能爬!通用大脑开启机器人「无休」时代
  • 零跑,不再「摸着理想过河」
  • 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新
  • Meta花了420万美元、烧掉40万GPU·小时,只为验证一条Sigmoid曲线
  • NeurIPS 2025 | 上交大提出MM-UPT:多模态大模型的“无监督后训练”范式
  • 从会画画到会思考:快手可灵提出T2I-CoReBench,最强模型也难逃推理瓶颈
  • 张鹏对谈朱啸虎、储瑞松、傅盛:Agentic AI 时代,不要什么东西都自己闷头做
  • Identity-GRPO:阿里开源多人物定制化视频生成的后训练优化算法
  • Real-world Video Super-Resolution | VSR的十字路口
  • 蔚来回应外国基金投诉:无事实依据;零跑推D19旗舰SUV,配超大电池;卡西欧推《回到未来》40周年联名表
  • 你的下一个「爱豆」不一定是真人,也可以是AI豆
  • 刚刚,谷歌深夜上新Veo 3.1!网友狂刷2.75亿条,Sora 2要小心了
  • 谷歌142页报告首发揭秘:90%码农每天用AI超2小时!
  • RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法
  • 谷歌×耶鲁联手发布抗癌神器!AI推理精准狙击「隐身」癌细胞
  • ACL 2025 | 北大提出动态焦点解码:让开放生成既“靠谱”又“好看”
  • 统一高效来了!清华发布RLinf-VLA:把VLA+RL的训练与部署“一网打尽”
  • GPT越来越保守?斯坦福Manning团队提出Verbalized Sampling,让模型重新“多想一点”
  • AI 时代,用一场「快闪」改变命运|IF 2026「AI 产品快闪」启动召集!
  • IF 2026 启动:来看看 AI 面前,谁在掌握主动权?
  • NeurIPS 2025 | 为Sora视频加上“隐形身份证”:清华大学等提出Safe-Sora,时空频率感知水印新框架
  • 从DNN到MLLM的异常之旅:视频异常检测(VAD)范式大迁徙
  • 苹果发布 M5 芯片笔记本和 iPad;微信:长时间不用账号,不再强行回收; 乔布斯登上一美元硬币
  • 马斯克的作业还是被奥特曼「抄走了」
  • 苏姿丰出手!Oracle下单5万颗AMD芯片,英伟达王座撼动
  • 具身智能算法哪家强?RoboChallenge见真章!全球首个大规模真机算法评测平台来了
  • NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%
  • 苹果M5「夜袭」高通英特尔!AI算力狂飙400%,Pro三剑客火速上新
  • TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++:4K照片增强仅需13ms,PSNR提升2.64dB!
  • IDEA提出Rex-Omni:将目标检测变为“下一个点预测”,零样本性能超越DINO
  • 罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控
  • AAAI 2026联合会议征稿开启:大语言模型中的深度逻辑推理
  • 下周见!Wiley Advanced主编论坛@IROS 2025:从审稿人视角重塑论文表达
  • Altman:ChatGPT将支持成人内容;港版iPhone Air无法用内地eSIM;传雷军一夜掉粉30万|极客早知道
  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产

重磅!DeepSeek再开源:视觉即压缩,100个token干翻7000个



  新智元报道  

编辑:KingHZ
【新智元导读】一图胜千言!DeepSeek-OCR模型大胆探索视觉-文本压缩边界。通过少量视觉token解码出10倍以上的文本信息,这款端到端VLM架构不仅在OmniDocBench基准上碾压GOT-OCR2.0,还为LLM的长上下文问题提供高效解决方案。

DeepSeek再发新模型!

Github上,DeepSeek新建了DeepSeek-OCR仓库,目的是探索视觉-文本压缩的边界。

常言道:一图胜万言。对LLM也是如此!

在理论上,DeepSeek-OCR模型初步验证了「上下文光学压缩」的可行性——

从少量视觉token中,模型能够有效解码出超过其数量10倍的文本token。

也就是说,包含文档文本的单张图像,能以远少于等效文本的token量来表征丰富信息。

这表明通过视觉token进行光学压缩可以实现更高的压缩比。

作为连接视觉与语言的中间模态,OCR任务是视觉-文本压缩范式理想的试验场——

它在视觉与文本表征之间建立了天然的压缩-解压缩映射关系,同时提供可量化的评估指标。

在OCR任务上,DeepSeek-OCR有较高实用价值:在OmniDocBench基准测试中,仅用100个视觉token即超越GOT-OCR2.0(每页256token);以少于800个视觉token的表现,优于MinerU2.0(平均每页6000+token)。

图(a)展示了在Fox基准测试中的压缩比(真实文本token数/模型使用的视觉token数);图(b)展示了在OmniDocBench上的性能对比

在实际应用中,单张A100-40G显卡可支持每日20万页以上的大语言模型/视觉语言模型训练数据生成。

新模型还能解析图表、化学方程式、简单几何图形和自然图像:

可以上下滚动的图片

在不同历史上下文阶段中,DeepSeek-OCR的视觉-文本压缩可减少7–20 倍的token,为解决大语言模型的长上下文问题提供了可行方向。

这一范式为重新思考视觉与语言模态的协同融合,进而提升大规模文本处理与智能体系统的计算效率,开辟了新的可能。

这一发现将有力推动视觉语言模型与大语言模型的未来发展。

Github:https://github.com/deepseek-ai/DeepSeek-OCR

HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-OCR

开源神器DeepSeek-OCR
探索上下文光学压缩

当前开源VLM(视觉语言模型)采用了三种主要的视觉编码器架构,但各有各的缺陷。

随着VLM的进步,许多端到端的OCR模型应运而生,根本性地改变了传统的管道架构,简化了OCR系统。

但有个核心问题:

对于一个包含1000个字的文档,至少需要多少个视觉token来解码?

这个问题对于研究「一画胜千言」的原则具有重要意义。

DeepSeek-OCR意在回答这一问题。它采用统一的端到端VLM架构,由编码器和解码器组成。

编码器(即DeepEncoder)负责提取图像特征,并对视觉表示进行token化与压缩处理。解码器则根据图像token和提示信息生成所需结果。

编码器:DeepEncoder创新架构

为了验证「上下文光学压缩」(context optical compression)的可行性,视觉编码器需要满足以下特性:

  1. 能处理高分辨率图像;

  2. 在高分辨率下保持较低的激活开销;

  3. 生成较少的视觉token;

  4. 支持多分辨率输入;

  5. 参数规模适中。

研究者提出了全新的视觉编码器DeepEncoder。DeepEncoder参数量约为3.8亿,主要由串联连接的SAM-base和CLIP-large构成。

视觉感知特征提取器,主要使用窗口注意力(window attention), 主架构为8000万参数的SAM-base(patch-size 16);  


视觉知识特征提取器,采用密集全局注意力(dense global attention),主架构为3亿参数CLIP-large  。

在这两个组件之间是一个2层卷积模块,对视觉token进行16×下采样

DeepEncoder会压缩图像打下,比如将输入大小为1024×1024的图像划分为1024/16×1024/16=4096个patch token。

编码器的前半部分由窗口注意力主导且只有80M参数,因此激活内存消耗是可接受的。

在进入全局注意力模块之前,4096个token通过压缩模块,最终token数量会减为4096/16=256,从而使得整体的激活内存消耗可控。

假设有一张包含1000个光学字符的图像,要想测试解码需要多少个视觉token,就要求模型能够支持可变数量的视觉token。

也就是说,DeepEncoder需要支持多种分辨率。

动态插值位置编码可满足上述需求。

研究者设计了多个分辨率模式,以便在模型训练过程中同时支持多种分辨率,从而实现单个 DeepSeek-OCR 模型支持多个分辨率的能力。

如下图4所示,DeepEncoder主要支持两种输入模式:原生分辨率动态分辨率。每种模式下又包含多个子模式。

原生分辨率支持四种子模式:TinySmallBaseLarge。

动态分辨率由两种原生分辨率组合而成。

支持动态分辨率主要是为了应对超高分辨率输入(例如报纸图像)的应用需求。瓦片化(tiling)是一种二级窗口注意力方法,可以进一步有效减少激活内存消耗。

Gundam模式下,DeepEncoder输出的视觉token数量为n×100+256,其中n为瓦片的数量

Gundam模式与四种原生分辨率模式一起训练,以实现一个模型支持多种分辨率的目标。

值得注意的是,Gundam-master模式(1024×1024的局部视图+1280×1280 的全局视图)是通过在已训练的DeepSeek-OCR模型上继续训练得到的。

下表1总结了各模式下的分辨率和token数。

解码器:DeepSeek-3B-MoE

解码器使用DeepSeekMoE,具体为DeepSeek-3B-MoE

在推理过程中,该模型激活了6个路由专家和2个共享专家,总计激活了约5.7亿参数。

3B的DeepSeekMoE非常适合于以领域为中心的视觉语言模型(VLM)研究——

它能够获得3B模型的表达能力,同时享有类似500M小型模型的推理效率。

具体结果

在Fox基准集,研究者验证 DeepSeek-OCR在文本密集型文档上的压缩与解压能力,初步探索「上下文光学压缩」的可行性与边界。

如下表2所示,在10×压缩比内,模型的解码精度可达约97%,这一结果极具潜力。

而且输出格式仍与Fox基准的格式并不完全一致,因此实际性能可能略高于测试结果。

未来,或可通过文本到图像(text-to-image) 方法实现接近10×无损上下文压缩

当压缩比超过10×时,性能开始下降,原因可能有二:

  1. 长文档布局更复杂;

  2. 长文本在 512×512 或 640×640 分辨率下出现模糊。

第一个问题可以通过将文本渲染到单页布局来缓解,而第二个问题则可能成为一种 「遗忘机制」(forgetting mechanism)的自然表现。

当压缩比接近20× 时,模型精度仍可维持在60%左右。

这些结果表明,光学上下文压缩(optical contexts compression) 是一种极具前景且值得深入研究的方向。

更重要的是,这种方法不会带来额外的计算开销,因为它能够直接利用VLM基础设施——

多模态系统本身就内置视觉编码器,从而具备天然的支持条件。

DeepSeek-OCR还很实用,能够为LLM/VLM预训练构建数据。

在实际部署中,DeepSeek-OCR使用20个计算节点(每节点配备8张A100-40G GPU)每日可为LLM/VLM生成3300万页训练数据。

为了量化OCR性能,研究者在OmniDocBench上测试了DeepSeek-OCR,结果如表3所示。

  • 在仅需100个视觉token640×640分辨率)的情况下,DeepSeek-OCR超越了使用256个token的 GOT-OCR2.0

  • 400个token(其中285个有效 token1280×1280分辨率)的情况下,模型在该基准测试中达到了与现有最先进模型相当的性能;

  • 使用不到800个tokenGundam 模式),DeepSeek-OCR超过了需要近7000个视觉tokenMinerU2.0

这些结果表明,DeepSeek-OCR 在实际应用中非常强大,且由于更高的 token 压缩,模型具有更高的研究上限。

如下表4所示,某些类型的文档,只需要非常少的token即可获得令人满意的性能。

对于书籍报告类型文档,DeepSeek-OCR仅需100个视觉token即可达到良好的性能。这可能是因为这类文档中的大多数文本token数量在1,000以内,意味着视觉token压缩比不超过10×

除了解析图表、化学方程式、简单几何图形和自然图像外,对于PDF文档DeepSeek-OCR可以处理近100种语言

如下图11所示,DeepSeek-OCR 不仅在常见语言处理上表现出色,而且在多语言处理能力上也具有广泛的适用性,进一步增强了其在全球范围内的应用潜力。

DeepSeek-OCR具有某种程度的通用图像理解能力。

相关的可视化结果如图12所示,展示了该模型在图像描述物体检测语境定位(grounding) 等任务中的表现。

详细结果和内容,见下列参考资料。
参考资料:
https://github.com/deepseek-ai/DeepSeek-OCR
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652636526&amp;idx=2&amp;sn=6655e6724282d39dc0ec7ae533881874&amp;chksm=f0f233d9f742b55504fdc5ddafc5a84f1e8cfd3faa639abefdca90def6d73a38d471a6d2c12c&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/4s3tzVABSo&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们