ToolsAi

原创让你更懂AI的 2025-10-14 13:48 北京

从论文到讲解，一键自动化

你以为熬夜剪视频能保命，其实 Paper2Video 才是 DDL 真正的救命药。给它一篇论文、讲者图像和音频样本，几分钟就能生成一支“自己讲”的学术演示视频。

想象一下：论文刚定稿，你的讲解视频也同步出炉——Slides 自动排版，语音和口型对齐，光标跟着重点移动，字幕一句不差再也不用卡着凌晨三点盯时间轴、调配音、修 Slides，只需要点一下生成键，看着论文自己“开口说话”。

这可不是哪位开发者随手写的 demo，而是一项被 NeurIPS 2025 SEA Workshop 收录的正式研究。作者来自新加坡国立大学 Show Lab，团队把那套“手动拼 Slides、录音、剪视频”的老流程，整合成了一条自动化流水线：

一方面，他们构建了专为学术场景打造的 Paper2Video 基准；
另一方面，他们发布了多智能体系统 PaperTalker，以“逐页并行”的方式，让 Slides、字幕、语音、讲者与光标协同生成，统一到同一条时间轴上。

在官方 demo 里，研究团队甚至让 Geoffrey Hinton 的头像“亲自出镜”，配上他本人音色的语音样本讲解论文片段。效果自然得出乎意料，就像他真的在做一场线上报告。

Paper2Video 的目标很直接：让每篇论文都能自己开口，把研究讲清楚。

论文题目：

Paper2Video Automatic Video Generation from Scientific Papers

项目主页：

https://showlab.github.io/Paper2Video/

代码地址：

https://github.com/showlab/Paper2Video

论文地址：

https://arxiv.org/abs/2510.05096

数据集地址：

https://huggingface.co/datasets/ZaynZhu/Paper2Video

研究背景

对于大多数科研人来说，论文讲解视频是最“反人性”的任务之一。写论文拼尽全力，结果投稿后才发现：还得做个 5 分钟 summary video。一边要讲清楚核心创新，一边又得控制时长、保证口型、匹配字幕——技术含量不高，但流程极其繁琐。

过去的方案基本都是“手工堆砌”：手动截图、导入 Slides、逐页录音、后期剪辑，再到字幕时间轴的人工对齐。这些碎片化步骤不仅耗时，还极难保持质量一致。

对于研究者来说，视频成品的好坏，往往取决于有没有空调音、会不会卡时间。而在模型不断进化的当下，AI 视频生成早已能从文本生成逼真的画面——但“论文讲解”依然是一块空白。

原因在于，这类任务的难点不在视觉，而在多模态、长时程与对齐：要同时理解论文的逻辑结构、生成对应的 Slides 内容、将语音与讲者动作匹配，并在讲述中用光标或高亮标出重点。这是一种典型的长上下文、多阶段、跨模态的智能体任务，传统端到端生成模型根本无法胜任。

Paper2Video 的切入点就很巧妙。它并没有追求端到端生成，而是把这件事工程化拆解——让不同的智能体分别负责 Slides 生成、字幕语音合成、讲者视频制作与光标轨迹控制，再通过统一时间轴协调。团队称之为一种“agentic pipeline”：一种能自动化完成复杂科研展示任务的多智能体系统。

与此同时，他们还提出了一个核心问题：如果 AI 能帮我们做演讲，那我们该怎么评价它讲得好不好？为此，论文同时推出了 Paper2Video 基准，收录 101 篇论文及作者原版讲解视频，建立起“论文—演讲”一一对应的基准体系。

配合四个新指标——Meta Similarity、PresentArena、PresentQuiz、IP Memory——首次让“学术讲解视频生成”具备了可比、可测、可复现的评价标准。

这也是为什么 Paper2Video 不仅是一个工具，更像是为“AI 讲论文”立下的第一个行业标尺。

论文方法

PaperTalker 的核心思想其实很简单：不是让一个模型包办一切，而是让多个智能体分工协作。作者形容它是一条“逐页并行的流水线”，把一场论文讲解视频拆成多个角色的配合：有人生成 Slides，有人写字幕，有人配音，有人当讲者，还有人操控鼠标。这听起来像在拍一场“多模态版的直播课”。

2.1 Slides生成

第一步，是从论文中提炼核心内容，生成讲解用的 Slides。团队选择的不是常见的 PowerPoint，而是学术界最熟悉的 LaTeX Beamer。

为什么？因为 Beamer 的结构天然清晰、可编译、可诊断。与 LLM “拍脑袋”生成的 Markdown 或 HTML 不同，Beamer 会在编译时直接告诉你版面是否溢出、图片是否放不下。这样，模型只需负责内容生成，版式的正确性交给 LaTeX 自己保证。

不过，这也带来新问题——模型并不擅长微调视觉比例。比如图片太大、表格太挤时，往往要靠人工反复试。为此作者提出了一个非常巧妙的策略：他们把“多轮调版式”改写成一个多选任务，叫做 Tree Search Visual Choice。

▲ 图1. 生成多个不同缩放比例的候选页面，再由视觉模型选出最合适的布局。

也就是说，模型会一次性输出几张候选版式（不同字体、缩放、间距），再由 VLM 挑出“最不挤”“最清晰”的版本。这样不仅稳定，还极大减少了反复调试的 Token 成本。

2.2 字幕与语音

生成 Slides 后，系统会调用视觉语言模型（VLM）对每一页 Slides 进行解析，输出分句字幕，并提取每一句对应的“视觉关注区域”。这一点很关键，因为字幕不仅要和语音同步，还要知道说到哪里、指到哪里。

然后是语音生成。PaperTalker 使用 F5-TTS 模型，只需几秒钟的语音样本，就能合成与原作者音色接近的完整讲解音频。作者演示了让 Hinton、老黄、LeCun 等大佬“亲自出镜”的例子：用他们的头像与录音片段生成完整视频，口型、音调都自然同步。

2.3 光标与讲者

如果没有光标和讲者，即使字幕和语音完美匹配，视频依然“像幻灯片放映”。团队为此设计了两项关键机制。

首先是 Cursor Builder：它会根据每一句字幕的“视觉关注提示”，通过计算机使用代理（UI-TARS）确定鼠标在页面上的停留坐标，然后结合 WhisperX 的时间戳，对齐每个句子的起止时间。

最终的效果是，讲解时鼠标会精准地在对应内容附近移动，如同真人操作。

其次是 Talker Builder：利用 Hallo2 / FantasyTalking 模型，从头像与语音生成带口型的讲者视频。与以往连续渲染不同，PaperTalker 在页级并行地生成讲者视频，每页独立渲染、最后拼接，大幅减少延迟。

▲ 图2. PaperTalker 整体框架。从幻灯片生成到讲者视频，全流程按页并行、模块协同。

2.4 流水线整合

所有模块完成后，系统会自动对齐时间轴，把 Slides、语音、字幕、光标、讲者拼合成完整视频。这一步看似简单，却是整个系统的关键。因为任何细微的延迟（比如口型比语音快 0.2 秒）都会让视频显得“不对劲”。

论文给出的解决方案是：以语音为主轴，所有模态围绕语音对齐。最终形成的结果是一个“逐页连续”的视频，每一页都像一个自成一体的小片段，既便于并行生成，也方便后期修改。

使用指南

PaperTalker 的最大优点在于：上手极其简单。你只需要三样东西——论文的 LaTeX 工程、一个方形头像、一个 10 秒左右的语音样本——其余的，系统会自动完成。

下面按照作者的推荐流程，一步步跑通你的第一个“AI 讲论文”视频。

第一步：准备运行环境

创建独立的 Conda 环境，并安装基础依赖与 LaTeX 编译器 tectonic。这样能保证幻灯片在本地顺利编译。

cd src
conda create -n p2v python=3.10
conda activate p2v
pip install -r requirements.txt
conda install -c conda-forge tectonic

第二步：安装讲者模块（Talking Head）

讲者视频生成部分使用 Hallo2，建议单独环境安装，以免依赖冲突。

git clone https://github.com/fudan-generative-vision/hallo2.git
cd hallo2
conda create -n hallo python=3.10
conda activate hallo
pip install -r requirements.txt

安装完后，用 which python 记下当前 Python 路径，稍后需要在主脚本中配置为 --talking_head_env。

第三步：配置 LLM / VLM

凭据 PaperTalker 默认调用 GPT-4.1 或 Gemini-2.5-Pro 来负责文本与视觉理解，也支持本地模型（如 Qwen 系列）。

export GEMINI_API_KEY="your_gemini_key_here"
export OPENAI_API_KEY="your_openai_key_here"

第四步：一键生成演讲视频

主脚本 pipeline.py 会自动串起整个流程：Slides → 字幕 → 语音 → 光标 → 讲者。官方建议使用 A6000 48G 或更高显存 GPU，并开启多卡并行。

python pipeline.py \
 --model_name_t gpt-4.1 \
 --model_name_v gpt-4.1 \
 --model_name_talking hallo2 \
 --result_dir /path/to/output \
 --paper_latex_root /path/to/latex_proj \
 --ref_img /path/to/ref_img.png \
 --ref_audio /path/to/ref_audio.wav \
 --talking_head_env /path/to/hallo2_env \
 --gpu_list [0,1,2,3,4,5,6,7] \
 --if_tree_search True

参数说明：

--paper_latex_root：论文 LaTeX 工程目录。

--ref_img：方形讲者头像。

--ref_audio：语音样本（推荐 10 s）。

--if_tree_search：是否启用树搜索优化版式。

--gpu_list：并行使用的 GPU ID。

运行后，系统会自动生成中间产物（Slides、字幕 JSON、语音、光标轨迹、讲者视频），最后合成为一支完整讲解视频。

实验结果

如果说前面的部分展示了 PaperTalker 怎么做视频，这一节要看的就是——它做得到底怎么样？

四项指标全面领先

作者在 Paper2Video 基准上对比了几种代表性方案，包括端到端自然视频生成、基于模板的多阶段系统，以及他们自己的 PaperTalker。结果几乎一边倒：

在 PresentQuiz（“看完视频后能答对论文题目”）上，PaperTalker 的得分甚至超过了真实作者视频；
在 PresentArena（“观众更喜欢哪个视频”）对比中，它的胜率最高；
Meta Similarity 和 IP Memory 两项也显著领先，说明它不仅内容对齐，还能让人“记住谁讲的”。

换句话说，PaperTalker 不只是生成得像，还讲得更清楚。这也是论文最有趣的一个结果——AI 在学术讲解里，第一次表现出“教学型”优势。

▲ 表1. 各方法在四类指标上的对比结果。图注：Meta Similarity（相似度）、PresentArena（偏好）、PresentQuiz（信息覆盖度）、IP Memory（记忆度）。

树搜索与并行，让生成更快、更稳

传统的端到端视频生成常常“费时又费钱”—— 模型不仅要理解内容，还要反复修正版式与节奏。PaperTalker 则通过两项关键设计解决了这一痛点：

Tree Search Visual Choice：一次性生成多种候选布局，由视觉模型挑选最优。
逐页并行渲染：每一页独立生成讲者与语音视频，可在多卡上同时运行。

结果显示，在相似质量下，整体推理时延减少近一半，Token 消耗降低约 40%。对实际使用者来说，这意味着——从“十几分钟出片”变成了“几分钟出片”。

▲ 表2. 不同系统在时延与 Token 成本上的比较。图注：PaperTalker 通过 Tree Search + 逐页并行，在不损失质量的前提下降低了推理代价。

光标真的有用

最后一个有趣的实验，是作者专门做的光标消融。他们发现，当讲解中加入同步的鼠标移动或高亮区域时，观众在理解图表、公式时的答题正确率显著提升。

▲ 表3. 光标消融实验。添加鼠标指示后，观众问答正确率显著提升。

这说明，光标不仅仅是“装饰动画”，而是让观众更聚焦、更理解讲者逻辑的关键。这也让 PaperTalker 的视频显得“更像人类讲课”——既有视觉指引，也有思路节奏。

从结果来看，PaperTalker 在生成效率、画面同步、讲解质量等多个维度上全面领先。如果说以前的论文视频更多是“形式作业”，那它让视频第一次变成了科研表达的一部分。

总结

如果说过去几年，大模型在“生成内容”上卷的是文字和图像，那 Paper2Video 展示的是另一条线——生成表达。它并不是让模型替人说话，而是让研究者更容易被听见。

对于每一个赶顶会的科研人来说，讲解视频往往是最后的“心力考验”：做不好，辛苦几个月的工作可能就被草草掠过；做得太晚，又常常拖在 DDL 前夜。

Paper2Video 的出现，几乎是从工程层面解决了这场“集体焦虑”——它把繁琐的后期制作，抽象成可自动化的 Pipeline，让视频生成变成了模型任务而不是人的任务。

但这篇论文真正有趣的地方，在于它让人重新思考一个问题：当 AI 不再只“写论文”，而是开始“讲论文”，研究传播的方式也许就要变了。

未来，也许会议上播放的不再是研究者熬夜录制的讲解，而是模型根据论文动态生成的版本。更进一步，当这样的系统被广泛使用后，“讲得好”可能会变成一种可优化的模型能力——像今天我们优化生成质量一样，去优化表达质量。

从“Vibe Coding”到“Vibe Research”，正如作者在论文中提到的那句暗示，这其实是一个新的起点：AI 不只是生成内容，而是在学习如何沟通、如何教人理解内容。这或许才是 Paper2Video 最值得记住的意义。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

阅读原文

跳转微信打开

动态列表

让论文自己讲！Paper2Video一键生成论文讲解视频，赶顶会DDL不慌了

你以为熬夜剪视频能保命，其实 Paper2Video 才是 DDL 真正的救命药。给它一篇论文、讲者图像和音频样本，几分钟就能生成一支“自己讲”的学术演示视频。

类别

资源

联系我们