动态列表

  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产
  • 他用一生证明AI没有意识!「中文屋」提出者逝世,享年93岁
  • 今年诺奖成果曾遭质疑无用,但华人团队用它研制了未来芯片的「钥匙」
  • 剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了
  • ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式
  • 硅谷爆发反AI「起义」!程序员拒用Cursor被一周解雇
  • 如果RL可预测,我们还需要把训练跑满吗?中科大揭示参数更新的线性秘密
  • 强化学习再迎范式切换:Sergey Levine团队把目标改写成“到达时间”
  • 国行 eSIM 尘埃落定,iPhone Air「下周见」
  • 为什么谷歌搜不到「没有条纹的衬衫」|AI 上新
  • SAM 3揭开面纱:不止分割万物,更能理解概念,交互式分割迎来新篇章!
  • ACM MM2025 Oral | MoSEAR:为多模态情感推理补齐“冲突场景”的短板
  • 雷军亲自测试,小米YU9实车谍照曝光;宇树获「秧歌机器人」专利;微团开卖「Win XP」蓝天白云拖鞋
  • 永别了,人类冠军!AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
  • 濒死3次,医生判他死刑!宾大教授奇迹自救,誓用AI攻克14000种绝症
  • 告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星
  • Bug变奖励:AI的小失误,揭开创造力真相!
  • 复旦张军平:人类是硅基生命过渡体?
  • Meta Ray-Ban Display 首发体验合集:悬浮在现实中的一张便签
  • OriginOS 6 深度体验:当操作系统回归「体验为王」
  • Mamba-3惊现ICLR 2026投稿:三重升级打满“推理优先”范式
  • 93%成功率!从“改提示”到“写剧情”:STaR-Attack用叙事推理攻破大模型防线
  • NeurIPS 2025 | Latent Harmony:潜空间和谐共生,实现UHD图像修复新SOTA
  • NeurIPS 2025 | NTN-Diff:一石二鸟,利用空文本与频率感知破解图像修复难题
  • 马斯克脑机公司展示脑机控制机械臂;三星中国发布折叠屏新机,16999 元起售;滴滴自动驾驶获 20 亿元融资 | 极客早知道
  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真

让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了

原创 让你更懂AI的 2025-10-14 13:48 北京

从论文到讲解,一键自动化

图片

你以为熬夜剪视频能保命,其实 Paper2Video 才是 DDL 真正的救命药。给它一篇论文、讲者图像和音频样本,几分钟就能生成一支“自己讲”的学术演示视频。

想象一下:论文刚定稿,你的讲解视频也同步出炉——Slides 自动排版,语音和口型对齐,光标跟着重点移动,字幕一句不差再也不用卡着凌晨三点盯时间轴、调配音、修 Slides,只需要点一下生成键,看着论文自己“开口说话”。

这可不是哪位开发者随手写的 demo,而是一项被 NeurIPS 2025 SEA Workshop 收录的正式研究。作者来自新加坡国立大学 Show Lab,团队把那套“手动拼 Slides、录音、剪视频”的老流程,整合成了一条自动化流水线:

  • 一方面,他们构建了专为学术场景打造的 Paper2Video 基准

  • 另一方面,他们发布了多智能体系统 PaperTalker,以“逐页并行”的方式,让 Slides、字幕、语音、讲者与光标协同生成,统一到同一条时间轴上。

在官方 demo 里,研究团队甚至让 Geoffrey Hinton 的头像“亲自出镜”,配上他本人音色的语音样本讲解论文片段。效果自然得出乎意料,就像他真的在做一场线上报告。

Paper2Video 的目标很直接:让每篇论文都能自己开口,把研究讲清楚。

论文题目:

Paper2Video Automatic Video Generation from Scientific Papers

项目主页:

https://showlab.github.io/Paper2Video/

代码地址:

https://github.com/showlab/Paper2Video

论文地址:

https://arxiv.org/abs/2510.05096

数据集地址:

https://huggingface.co/datasets/ZaynZhu/Paper2Video

研究背景

对于大多数科研人来说,论文讲解视频是最“反人性”的任务之一。写论文拼尽全力,结果投稿后才发现:还得做个 5 分钟 summary video。一边要讲清楚核心创新,一边又得控制时长、保证口型、匹配字幕——技术含量不高,但流程极其繁琐。

过去的方案基本都是“手工堆砌”:手动截图、导入 Slides、逐页录音、后期剪辑,再到字幕时间轴的人工对齐。这些碎片化步骤不仅耗时,还极难保持质量一致。

对于研究者来说,视频成品的好坏,往往取决于有没有空调音、会不会卡时间。而在模型不断进化的当下,AI 视频生成早已能从文本生成逼真的画面——但“论文讲解”依然是一块空白。

原因在于,这类任务的难点不在视觉,而在多模态长时程与对齐:要同时理解论文的逻辑结构、生成对应的 Slides 内容、将语音与讲者动作匹配,并在讲述中用光标或高亮标出重点。这是一种典型的长上下文、多阶段、跨模态的智能体任务,传统端到端生成模型根本无法胜任。

Paper2Video 的切入点就很巧妙。它并没有追求端到端生成,而是把这件事工程化拆解——让不同的智能体分别负责 Slides 生成、字幕语音合成、讲者视频制作与光标轨迹控制,再通过统一时间轴协调。团队称之为一种“agentic pipeline”:一种能自动化完成复杂科研展示任务的多智能体系统。

与此同时,他们还提出了一个核心问题:如果 AI 能帮我们做演讲,那我们该怎么评价它讲得好不好?为此,论文同时推出了 Paper2Video 基准,收录 101 篇论文及作者原版讲解视频,建立起“论文—演讲”一一对应的基准体系。

配合四个新指标——Meta Similarity、PresentArena、PresentQuiz、IP Memory——首次让“学术讲解视频生成”具备了可比、可测、可复现的评价标准。

这也是为什么 Paper2Video 不仅是一个工具,更像是为“AI 讲论文”立下的第一个行业标尺。

论文方法

PaperTalker 的核心思想其实很简单:不是让一个模型包办一切,而是让多个智能体分工协作。作者形容它是一条“逐页并行的流水线”,把一场论文讲解视频拆成多个角色的配合:有人生成 Slides,有人写字幕,有人配音,有人当讲者,还有人操控鼠标。这听起来像在拍一场“多模态版的直播课”。

2.1 Slides生成

第一步,是从论文中提炼核心内容,生成讲解用的 Slides。团队选择的不是常见的 PowerPoint,而是学术界最熟悉的 LaTeX Beamer

为什么?因为 Beamer 的结构天然清晰、可编译、可诊断。与 LLM “拍脑袋”生成的 Markdown 或 HTML 不同,Beamer 会在编译时直接告诉你版面是否溢出、图片是否放不下。这样,模型只需负责内容生成,版式的正确性交给 LaTeX 自己保证。

不过,这也带来新问题——模型并不擅长微调视觉比例。比如图片太大、表格太挤时,往往要靠人工反复试。为此作者提出了一个非常巧妙的策略:他们把“多轮调版式”改写成一个多选任务,叫做 Tree Search Visual Choice。

▲ 图1. 生成多个不同缩放比例的候选页面,再由视觉模型选出最合适的布局。

也就是说,模型会一次性输出几张候选版式(不同字体、缩放、间距),再由 VLM 挑出“最不挤”“最清晰”的版本。这样不仅稳定,还极大减少了反复调试的 Token 成本。

2.2 字幕与语音

生成 Slides 后,系统会调用视觉语言模型(VLM)对每一页 Slides 进行解析,输出分句字幕,并提取每一句对应的“视觉关注区域”。这一点很关键,因为字幕不仅要和语音同步,还要知道说到哪里、指到哪里。

然后是语音生成。PaperTalker 使用 F5-TTS 模型,只需几秒钟的语音样本,就能合成与原作者音色接近的完整讲解音频。作者演示了让 Hinton、老黄、LeCun 等大佬“亲自出镜”的例子:用他们的头像与录音片段生成完整视频,口型、音调都自然同步。

2.3 光标与讲者

如果没有光标和讲者,即使字幕和语音完美匹配,视频依然“像幻灯片放映”。团队为此设计了两项关键机制。

首先是 Cursor Builder:它会根据每一句字幕的“视觉关注提示”,通过计算机使用代理(UI-TARS)确定鼠标在页面上的停留坐标,然后结合 WhisperX 的时间戳,对齐每个句子的起止时间。

最终的效果是,讲解时鼠标会精准地在对应内容附近移动,如同真人操作。

其次是 Talker Builder:利用 Hallo2 / FantasyTalking 模型,从头像与语音生成带口型的讲者视频。与以往连续渲染不同,PaperTalker 在页级并行地生成讲者视频,每页独立渲染、最后拼接,大幅减少延迟。

▲ 图2. PaperTalker 整体框架。从幻灯片生成到讲者视频,全流程按页并行、模块协同。

2.4 流水线整合

所有模块完成后,系统会自动对齐时间轴,把 Slides、语音、字幕、光标、讲者拼合成完整视频。这一步看似简单,却是整个系统的关键。因为任何细微的延迟(比如口型比语音快 0.2 秒)都会让视频显得“不对劲”。

论文给出的解决方案是:以语音为主轴,所有模态围绕语音对齐。最终形成的结果是一个“逐页连续”的视频,每一页都像一个自成一体的小片段,既便于并行生成,也方便后期修改。

使用指南

PaperTalker 的最大优点在于:上手极其简单。你只需要三样东西——论文的 LaTeX 工程、一个方形头像、一个 10 秒左右的语音样本——其余的,系统会自动完成。

下面按照作者的推荐流程,一步步跑通你的第一个“AI 讲论文”视频。

第一步:准备运行环境

创建独立的 Conda 环境,并安装基础依赖与 LaTeX 编译器 tectonic。这样能保证幻灯片在本地顺利编译。

cd src
conda create -n p2v python=3.10
conda activate p2v
pip install -r requirements.txt
conda install -c conda-forge tectonic

第二步:安装讲者模块(Talking Head)

讲者视频生成部分使用 Hallo2,建议单独环境安装,以免依赖冲突。

git clone https://github.com/fudan-generative-vision/hallo2.git
cd hallo2
conda create -n hallo python=3.10
conda activate hallo
pip install -r requirements.txt

安装完后,用 which python 记下当前 Python 路径,稍后需要在主脚本中配置为 --talking_head_env

第三步:配置 LLM / VLM

凭据 PaperTalker 默认调用 GPT-4.1 或 Gemini-2.5-Pro 来负责文本与视觉理解,也支持本地模型(如 Qwen 系列)。

export GEMINI_API_KEY="your_gemini_key_here"
export OPENAI_API_KEY="your_openai_key_here"

第四步:一键生成演讲视频

主脚本 pipeline.py 会自动串起整个流程:Slides → 字幕 → 语音 → 光标 → 讲者。官方建议使用 A6000 48G 或更高显存 GPU,并开启多卡并行。

python pipeline.py \
--model_name_t gpt-4.1 \
--model_name_v gpt-4.1 \
--model_name_talking hallo2 \
--result_dir /path/to/output \
--paper_latex_root /path/to/latex_proj \
--ref_img /path/to/ref_img.png \
--ref_audio /path/to/ref_audio.wav \
--talking_head_env /path/to/hallo2_env \
--gpu_list [0,1,2,3,4,5,6,7] \
--if_tree_search True

参数说明:

--paper_latex_root:论文 LaTeX 工程目录。

--ref_img:方形讲者头像。

--ref_audio:语音样本(推荐 10 s)。

--if_tree_search:是否启用树搜索优化版式。

--gpu_list:并行使用的 GPU ID。

运行后,系统会自动生成中间产物(Slides、字幕 JSON、语音、光标轨迹、讲者视频),最后合成为一支完整讲解视频。

实验结果

如果说前面的部分展示了 PaperTalker 怎么做视频,这一节要看的就是——它做得到底怎么样?

四项指标全面领先

作者在 Paper2Video 基准上对比了几种代表性方案,包括端到端自然视频生成、基于模板的多阶段系统,以及他们自己的 PaperTalker。结果几乎一边倒:

  • 在 PresentQuiz(“看完视频后能答对论文题目”)上,PaperTalker 的得分甚至超过了真实作者视频;

  • 在 PresentArena(“观众更喜欢哪个视频”)对比中,它的胜率最高;

  • Meta Similarity 和 IP Memory 两项也显著领先,说明它不仅内容对齐,还能让人“记住谁讲的”。

换句话说,PaperTalker 不只是生成得像,还讲得更清楚。 这也是论文最有趣的一个结果——AI 在学术讲解里,第一次表现出“教学型”优势。

▲ 表1. 各方法在四类指标上的对比结果。 图注:Meta Similarity(相似度)、PresentArena(偏好)、PresentQuiz(信息覆盖度)、IP Memory(记忆度)。

树搜索与并行,让生成更快、更稳

传统的端到端视频生成常常“费时又费钱”—— 模型不仅要理解内容,还要反复修正版式与节奏。PaperTalker 则通过两项关键设计解决了这一痛点:

  • Tree Search Visual Choice:一次性生成多种候选布局,由视觉模型挑选最优。

  • 逐页并行渲染:每一页独立生成讲者与语音视频,可在多卡上同时运行。

结果显示,在相似质量下,整体推理时延减少近一半,Token 消耗降低约 40%。对实际使用者来说,这意味着——从“十几分钟出片”变成了“几分钟出片”。

▲ 表2. 不同系统在时延与 Token 成本上的比较。 图注:PaperTalker 通过 Tree Search + 逐页并行,在不损失质量的前提下降低了推理代价。

光标真的有用

最后一个有趣的实验,是作者专门做的光标消融。他们发现,当讲解中加入同步的鼠标移动或高亮区域时,观众在理解图表、公式时的答题正确率显著提升。

▲ 表3. 光标消融实验。添加鼠标指示后,观众问答正确率显著提升。

这说明,光标不仅仅是“装饰动画”,而是让观众更聚焦、更理解讲者逻辑的关键。这也让 PaperTalker 的视频显得“更像人类讲课”——既有视觉指引,也有思路节奏。

从结果来看,PaperTalker 在生成效率、画面同步、讲解质量等多个维度上全面领先。如果说以前的论文视频更多是“形式作业”,那它让视频第一次变成了科研表达的一部分。

总结

如果说过去几年,大模型在“生成内容”上卷的是文字和图像,那 Paper2Video 展示的是另一条线——生成表达。它并不是让模型替人说话,而是让研究者更容易被听见。

对于每一个赶顶会的科研人来说,讲解视频往往是最后的“心力考验”:做不好,辛苦几个月的工作可能就被草草掠过;做得太晚,又常常拖在 DDL 前夜。

Paper2Video 的出现,几乎是从工程层面解决了这场“集体焦虑”——它把繁琐的后期制作,抽象成可自动化的 Pipeline,让视频生成变成了模型任务而不是人的任务。

但这篇论文真正有趣的地方,在于它让人重新思考一个问题:当 AI 不再只“写论文”,而是开始“讲论文”,研究传播的方式也许就要变了。

未来,也许会议上播放的不再是研究者熬夜录制的讲解,而是模型根据论文动态生成的版本。更进一步,当这样的系统被广泛使用后,“讲得好”可能会变成一种可优化的模型能力——像今天我们优化生成质量一样,去优化表达质量。

从“Vibe Coding”到“Vibe Research”,正如作者在论文中提到的那句暗示,这其实是一个新的起点:AI 不只是生成内容,而是在学习如何沟通、如何教人理解内容。这或许才是 Paper2Video 最值得记住的意义。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们