动态列表

  • 协和4+4的另一面:浙江范式用AI定义医疗未来!AI「智愈」时代来临
  • 睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升
  • 25位IT大佬亲述:AI「吃掉」程序员!码农黄金时代终结
  • i人如何在学术会议有效社交?滑铁卢大学教授Gautam Kamath亲授心得
  • 315 行代码构建编程助手,Go大佬揭开智能体的「神秘面纱」
  • 阿里云通义点金发布DianJin-R1金融领域推理大模型,32B模型荣膺榜首
  • CVPR 2025 | 如何稳定且高效地生成个性化的多人图像?ID-Patch带来新解法
  • 小米取消 SU7 Ultra 大马力限制 OTA;淘宝闪购上线,每天 2 个大红包;极客团队推《人生切割术》同款键盘
  • 1美元颠覆6000亿广告界,哥大辍学天才30天狂飙500万营收
  • 从游戏少女到AI女神!她用物理驯服AI,让飓风预测快1000倍
  • 全球首个AI科学家天团出道!007做实验碾压人类博士,生化环材圈巨震
  • 只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%
  • 刚刚,ICML 2025录用结果公布!好评论文惨遭拒,审稿人敷衍引全网怒喷
  • Aero-1-Audio: LMMs-Lab发布1.5B音频语言模型,长音频转录直出,性能优异!
  • ICML 2025放榜!接收率26.9%,高分被拒,低分录用惹争议
  • LoRA中到底有多少参数冗余?新研究:砍掉95%都能保持高性能
  • 浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误
  • Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
  • 马斯克怒怼特斯拉换帅报道;苹果库克称关税成本暂不转嫁给消费者,但未来难说;游戏科学获五四青年奖章集体
  • 400万token新SOTA!英伟达UIUC联手:兼顾长短上下文顶尖性能
  • AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛斥
  • 北大出手,物理学院天才们教AI「做人」!PHYBench成大模型物理能力试金石
  • DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过
  • 被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作
  • 后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
  • ScienceOne正式发布:基于科学基础大模型的智能科研平台
  • 一个月 78 块的 AI 日历,治好了我的「万事开头难」
  • DeepSeek 发布 Prover-V2 模型;小米首个推理大模型开源;饿了么宣布超百亿补贴加入外卖战局
  • 2万亿巨兽来袭,小扎亮底牌! 首次回应Llama 4风暴,开源榜单背锅
  • 清华出手,挖走美国顶尖AI研究者!前DeepMind大佬被抄底,美国人才倒流中国
  • 刚刚,DeepSeek-Prover-V2-671B开源!
  • 发布 Qwen3,阿里云拉开新一轮开源模型竞赛的序幕
  • Video-XL-Pro:端侧3B模型长视频理解新sota!性能赶超7B巨头!
  • 解决200种复杂材料,10Å尺度模拟纳米晶体,哥大团队用4万个原子结构训练AI,登Nature子刊
  • 真·开源MCP平台来了!ACI.dev能一站直连600+工具,让你的智能体秒变全能王!
  • 刚刚!OpenAI回滚了最新版本的GPT-4o,因ChatGPT「过度谄媚」
  • 只花9美元,推理能力暴涨20%!小模型Tina震撼登场,成本缩减260倍
  • 上交大推出首个AI智能体协议全面综述:从碎片化到互联互通的智能体网络
  • CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP,大模型训练最高加速3.8倍
  • R1-Zero的无监督版本来了!SFT不再是必须,EMPO重新定义大模型推理微调
  • ICLR 2025 | 差分注意力机制爆火!DIFF Transformer击穿长文本建模天花板
  • 北邮-腾讯联合提出多任务提示调优推荐框架MPT-Rec,实现效率性能双突破
  • 北京内推 | 中电信人工智能公司招聘多模态大模型算法实习生
  • 沃尔玛通知中国供应商恢复供货;Meta 推独立 AI 助手,融合社交元素;因「过于奉承」,OpenAI 撤回更新
  • AI包办79%代码,程序员饭碗不保!前端开发要凉,人类只配改Bug?
  • 细思极恐,AI操控舆论达人类6倍!卧底4月无人识破,Reddit集体沦陷
  • 大模型时代,百度智能云迎来最大机会
  • 我用Qwen3实测了9道经典难题,再聪明的AI也有犯傻的时候
  • 「拍照问夸克」,从「Know-What」到「Get it Done」的跃迁
  • 终端云端三连发!无问芯穹开源大模型推理加速神器,加码构建新一代端、云推理系统
  • 小红书,不止看车,更看生活
  • 阿里千问 3 登顶全球最强开源模型,性能超越 DeepSeek-R1、OpenAI-o1
  • GPU无上限+AGI顶尖课题!蚂蚁星「Plan A」全球招募下一代AI领航者
  • 33,000美元奖金池!Meta CRAG-MM挑战赛开启,多模态RAG巅峰对决
  • 博士申请 | 香港中文大学MMLab岳翔宇老师招收人工智能全奖博士/RA/实习生
  • ChatGPT的尽头也是「带货」:3、2、1,上链接
  • ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%
  • 淘天集团“T-Star计划”首次向实习生开放,提供转正Offer
  • 猛击OpenAI o1、DeepSeek-R1!刚刚,阿里Qwen3登顶全球开源模型王座,深夜爆火
  • 语音领域ISCA Fellow 2025公布:上海交大俞凯、台大李宏毅等三位华人入选
  • 2025 Meta CRAG-MM Challenge 赛题发布
  • 上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025
  • 蚂蚁密算福州发布密态可信数据空间:高性能、低成本和全链路安全
  • 海螺+可灵、上线两个多月、5万+围观,零破绽,这支AI广告藏得太深了
  • 阿里开源新一代通义千问模型 Qwen3;传刘强东曾和王兴共聚晚餐;马斯克:5 年内机器人将超越外科医生 | 极客早知道
  • AI 2027研究揭秘美国算力真相!中国全球AI专利Top1,但美国或以算力取胜
  • 华人博士用ChatGPT治病,比医生靠谱?OpenAI联创点赞
  • 100年企业知识超10万文件,「内网版ChatGPT」血洗最卷行业!全员70%和AI共事
  • AGI幻灭,LeCun观点得证?哈佛研究实锤AI不懂因果,世界模型神话破灭
  • 52页PPT,谷歌Gemini预训练负责人首次揭秘!扩展定律最优解
  • Apple Watch 10 周年,哪些「环」直到现在也没「合上」?
  • 从「黑科技」到「量产」,爱奇艺的虚拟制作进化论
  • 打造「无所不能、无处不在」的 AI,百度为何要从「操作系统」做起?
  • 北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?
  • ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
  • ICLR 2025 | 大模型是否能做到有效“遗忘”?从梯度视角重新审视LLM反学习方法
  • ICLR 2025 | 基于多任务学习的回归范式实现更快的灵活分子对接
  • 智象未来x商汤大装置:全栈赋能全球首个开放使用视频生成DiT模型
  • 两篇Nature Medicine,DeepSeek、GPT-4o等LLM在医学推理、临床决策中的应用评估
  • AI+量子计算:港科大等提出突破性低温存内计算方案
  • 除了Ilya、Karpathy,离职OpenAI的大牛们,竟然创立了这么多公司
  • 字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
  • 首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路
  • 模型压缩到70%,还能保持100%准确率,无损压缩框架DFloat11来了
  • 重磅发布 | 复旦《大规模语言模型:从理论到实践(第2版)》全新升级,聚焦AI前沿
  • AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实
  • 受关税影响,美电商商品价格普涨;京东外卖扩招 10 万旗手;苹果 AI 智能眼镜有望 2027 年推出|极客早知道
  • 一行代码不用写,AI看论文自己「生」出代码库!科研神器再+1
  • OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者
  • 深度学习基础架构革新?通过梯度近似寻找Normalization的替代品
  • ICLR 2025 | 计算开销减半!Dynamic-LLaVA刷新多模态大模型推理加速上限
  • 迈向长上下文视频生成!FAR重塑下一帧预测范式,短视频与长视频双双登顶SOTA
  • 英伟达送钱送算力!数据过滤挑战赛开启:白嫖A100,冲击1万美金大奖!
  • 字节启动Top Seed大模型顶尖人才计划2026届校招
  • 纳米AI放大招!MCP万能工具箱,人人都能用上超级智能体
  • Devin开发团队开源DeepWiki,助你快速读懂所有GitHub代码库
  • ICLR 2025 | 无需训练加速20倍,清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM
  • 基于奖励驱动和自组织演化机制,全新框架ReSo重塑复杂推理任务中的智能协作
  • 阶跃星辰发布图像编辑模型 Step1X-Edit,性能开源最佳
  • 百度Create AI开发者大会:李彦宏发布两大新模型、多款热门AI应用,帮助开发者全面拥抱MCP
  • 清华系智谱×生数达成战略合作,专注大模型联合创新
  • 九章云极DataCanvas公司双论文入选全球顶会ICLR,推动AI解释性与动态因果推理核心进展​
  • 在介观尺度「找不同」?ML预测材料失效,使材料设计更安全
  • 阿里AI旗舰应用夸克发布全新“AI相机” 提升AI超级框多模态能力
  • 传马斯克 xAI 正寻求 200 亿美元融资;Waymo 未来或向个人销售自动驾驶汽车;贾跃亭回应「下周回国」梗

模仿or探索?LUFFY:我全都要!巧妙融合外部指导,RL推理不再死板

让你更懂AI的 2025-04-29 14:02 北京

Hugging Face热榜第一!


本文提出 LUFFY 强化学习方法,一种结合离线专家示范与在线强化学习的推理训练范式,打破了“模仿学习只学不练、强化学习只练不学”的传统壁垒。

论文标题:

Learning to Reason under Off-policy Guidance

论文地址:

https://arxiv.org/abs/2504.14945

Huggingface 地址:

https://huggingface.co/papers/2504.14945

Github 地址:

https://github.com/ElliottYan/LUFFY


LUFFY 通过将高质量专家示范制定为一种离策略指引(off-policy guidance),并引入混合策略优化与策略塑形机制,稳定地实现了在保持探索能力的同时高效吸收强者经验。


在六项数学竞赛级基准测试中,LUFFY 显著超越现有 Zero-RL 方法,平均提升+7.0 分,并在分布外任务中展现出优异的泛化能力,为通用推理模型训练提供了新思路。

▲ 图1. 在六项竞赛级数学推理基准上的整体表现。在 AIME 2024、AIME 2025、AMC、MATH-500、Minerva Math 和 OlympiadBench 六个高难度基准测试中,LUFFY 取得了平均 49.6% 的准确率,较现有 Zero-RL 方法实现了超过 +7.0 分的显著性能提升。


该工作一经发布,便登上 Hugging Face 社区的 Daily Papers 热榜第一,获得众多研究者点赞认可。



背景:“只学不练”与“只练不学”的困境

在大推理模型(large reasoning models)学习复杂推理技能的过程中,最近的一系列研究工作主要尝试了两种策略:


一是模仿学习(例如 SFT),让模型去学习强大神经模型或人类专家的推理示范;


二是强化学习(尤其是 zero-RL 范式),让模型通过与环境的交互自行摸索解决问题的策略。前者侧重从强者策略“学”习,后者鼓励在环境中历”练“。然而,两种策略各有其无法规避的弊端:


  • SFT“只学不练”如果模型只是模仿强者的解题步骤(如直接用专家轨迹进行监督微调),它或许能快速取得不错的表现,但很可能只是照猫画虎地套用了示范中的模式。一旦遇到超出示范分布的新问题,它往往难以举一反三,暴露出泛化能力的不足 [1,2]

▲ 图2. 模仿学习(SFT):模型通过模仿专家模型生成的高质量推理轨迹,学习完成推理任务。

  • zero-RL“只练不学”另一种极端下,模型完全依赖自身的试错来提升推理能力。然而,该策略受制于模型本身能力,闭门造车,很难在推理行为上产生质的飞跃。最近也有研究 [3,4] 表明,该范式更多地是放大模型在预训练阶段学习到的行为,并没有获取额外的推理能力。

▲ 图3. 强化学习:模型通过多轮推理尝试,根据与环境(如验证器)的交互反馈,不断优化自身策略。


显然,“只学不练”和“只练不学”都无法让推理模型充分挖掘潜力。那么有没有办法让模型既能借鉴高手经验,又能保持自身探索,兼顾两方面的优点呢?这正是研究者们一直思考的问题。


最近,上海 AI Lab 联合西湖大学、南京大学和香港中文大学提出了一种全新的大模型推理强化学习范式,取名为 LUFFY(Learning to reason Under oFF-policY guidance),其核心理念在于从更优策略中汲取推理知识,并即时融入自身推理实践之中,从而实现真正意义上的“边学边练,学以致用”。



LUFFY的“边学边练”新范式

▲ 图4. LUFFY:边学边练的推理学习框架。LUFFY在强化学习框架中引入外部优质推理轨迹,通过“策略塑形”机制,融合自身尝试(on-policy)与专家示范(off-policy)的优势。当模型自身推理失败时,它从专家示范中学习关键步骤;而当自身表现优异时,则保持独立探索。该机制在保持探索能力的同时,引导模型聚焦于低概率但关键的行动,从而实现推理能力的持续进化与泛化。


LUFFY 的名字来源于“离策略(off-policy)指导下学习推理”。它所倡导的“边学边练”范式,指的是模型能够一边向更强的老师学习,一边立即把学到的本领用于问题求解。在 LUFFY 的训练框架中(如图 4 所示),我们会同时利用离策略的示范轨迹模型自身的在线演练


一方面,LUFFY 会引入来自强大外部策略的高质量推理示范(off-policy traces),例如让一个性能很强的“大师级”模型先解一道题,提供它的思考步骤。当 LUFFY 的模型在自己尝试某个问题时,如果陷入失败或走入死胡同,就可以参考这些离策略示范,模仿其中有效的推理步骤,相当于向高手取经


另一方面,LUFFY 并不是盲目照搬示范。它仍然让模型不断进行自主的推理尝试(on-policy rollouts),并在模型自己解对了的时候坚持让它走自己的路,给予模型自由探索的空间。


通过将这两种来源的经验融合,LUFFY 实现了模仿探索的动态平衡:模型既不会因为缺少练习而固步自封,也不会因为缺少指引而原地打转。正如作者所说,LUFFY 让模型的训练过程达到了一个“即模仿又探索”的自适应平衡


值得注意的是,实现这种平衡并非易事。如果简单地把外部示范硬塞给模型,实验表明会出现训练收敛过快甚至“熵”崩塌(Entropy Collapse)的问题。


换句话说,模型可能会因为过度依赖示范而变得贪婪保守,只记住表面的套路,反而学不到深层次的推理本领。LUFFY 通过一系列巧妙的技术设计,化解了这一矛盾,使“边学边练”真正奏效。



方法创新:混合策略 GRPO 与“策略塑形”

从技术实现上看,LUFFY 基于强化学习算法 GRPO,针对融合外部示范的挑战引入了两大关键机制:


1. 混合策略训练:LUFFY 在策略优化过程中,将离策略示范在线轨迹相结合,形成一种混合的训练策略(Mixed-Policy)。具体来说,在每一轮更新中,模型的自身 rollout 生成的轨迹与来自强者的 off-policy 轨迹一起用于计算强化学习中的优势函数(advantage)。


那些外部示范往往伴随着更高的奖励信号(因为强者解题更正确),在优势估计中提供了宝贵的信息。因此,当模型自己的解答不理想时,优化算法会倾向于学习模仿外部高奖励的示范。


反之,当模型自己表现良好时,则主要依据自身轨迹来更新。这种混合策略的 GRPO 训练让模型能够见贤思齐,又不失去自主成长的机会。


2. 策略塑形(Policy Shaping)与熵保持:为了避免模型对示范的生搬硬套,LUFFY 引入了策略塑形机制。它通过一种正则化的重要性采样技巧,放大那些对成功至关重要但在模型当前策略下出现概率很低的行动的学习信号。


简单来说,就是让模型更加关注那些它原本很少尝试、但专家解题中出现的关键步骤。这种策略塑形相当于有针对性地纠偏:既引导模型汲取高手解题的精华,又防止模型把不重要的表面模式一股脑模仿过去。


同时,作者在训练中注意保持模型决策的熵值(entropy),避免策略过早变得单一僵化。这意味着模型在学习示范的同时仍保有一定的随机探索成分,不会彻底放弃对新解法的尝试。


最终,LUFFY 的模型既能吸收示范中蕴含的巧妙思路,又能持续拓展自己的能力边界。如图 5 所示,策略塑形通过非线性函数,缓解了直接引入离策略示范导致的熵崩塌 [5]

▲ 图5. 策略塑形在 LUFFY 中的作用效果。LUFFY 通过“策略塑形”机制缓解混合策略训练中的熵崩塌问题,提升模型对低概率关键动作的关注度。左图:训练过程中的策略熵对比。传统 on-policy 与混合策略方法在早期迅速熵崩塌(即生成高度确定性),而 LUFFY 借助策略塑形保持较高熵值,显著增强了持续探索能力。中图:不同方法下损失函数基于决策概率的权重分配。右图:基于决策概率的梯度加权情况对比。LUFFY 通过非线性权重提升了对罕见(低概率)但重要行为的梯度响应,进而引导模型更有效地从 off-policy 示范中习得深层推理模式。

▲ 图6. 策略塑形函数 f() 可被看作正则约束下的重要性采样,鼓励模型关注低概率、但可能重要的行为决策。


通过上述技术创新,LUFFY 实现了“边学边练”的有效融合:模型能够在强化学习训练的每一步,都动态地决定何时该学习别人、何时该相信自己,从而逐步习得超越其起始能力的推理技能。



实验结果:“边学边练”的优势

▲ 表1. 在六项竞赛级数学推理基准上的整体表现。在 AIME 2024、AIME 2025、AMC、MATH-500、Minerva Math 和 OlympiadBench 六个高难度基准测试中,LUFFY 取得了平均 49.6% 的准确率,显著超越现有 zero-RL 范式。


LUFFY 方法在多项高难度数学推理基准上取得了令人瞩目的成绩(完整数据已在 GitHub 项目中公开)。表 1 总结了在 6 个竞赛级别的数学推理数据集上的总体表现(底座模型为 Qwen-Math-7B)。


可以看到,LUFFY 的平均解题准确率达到了 49.6%,相较此前一系列纯强化学习方案提升了约 7 个百分点,刷新了这一领域的最佳水平(SOTA)。这证明将外部高手示范融入强化学习能够带来显著性能提升。

▲ 表2. 分布外测试集的性能表现(ARC-c,GPQA-diamond 和 MMLU-Pro)。


更令人惊喜的是,在更具挑战性的分布外测试中(即模型遇到超出训练分布的新题型,结果汇总如表 2),LUFFY 同样表现出色:平均准确率 57.8%,显著超越此前系列 zero-RL 方法,且比纯模仿的 SFT 高出约 10 个百分点。


换言之,LUFFY 训练出的模型不仅在见过类型的问题上表现突出,在举一反三的能力上也胜过照搬示范的模型。

▲ 表3. LUFFY 在 Qwen2.5-Math-1.5B 上的性能表现。

▲ 表4. LUFFY 在 Qwen2.5-Instruct-7B 上的性能表现。


此外,如表 3 和 4 所示,LUFFY 也在其他模型上展现出了有效性,例如更小的模型和指令对齐后的模型。


研究人员的分析进一步表明:LUFFY 的模型在推理时能够灵活地借鉴示范,但并不会拘泥于固定模式;相比之下,传统的 SFT 模型更多是刻板地记忆了示范套路,这也解释了为何 LUFFY 在泛化性上更胜一筹。


从图 7 可以看出,LUFFY 在生成正确解时的平均推理长度明显短于 SFT,展现出更高效的推理路径。尤其在错误解的分布中,SFT 倾向于陷入冗长、低效的表面推理过程,生成大量无效信息;而 LUFFY 则更倾向于早停错误尝试,避免无意义展开,体现了其更强的推理控制能力和路径优化能力。

▲ 图7. LUFFY 和 SFT 的推理长度对比。

从图 8 可见,LUFFY 在不同温度下均展现出稳定且持续增长的 pass@8 表现,展现出优异的测试阶段探索能力


与之相比,SFT 仅在低温度(接近确定性解码)下表现尚可,但在温度升高后性能反而下降,难以挖掘新的解题路径。这表明 LUFFY 不仅能学习已有推理模式,更具备泛化探索能力,而 SFT 更容易陷入“模式记忆”,缺乏动态适应性。

▲ 图8. LUFFY 和 SFT 在测试时探索能力对比。



结语:意义与展望

LUFFY 所开创的“边学边练”范式,为大模型推理能力的训练提供了一条兼顾效率与效果的新路径。


通过桥接“模仿学习”和“强化学习”这两种思路,LUFFY 证明了离策略指导在提升模型高阶推理能力上的巨大潜力:模型可以突破自身的先天局限,吸收更强者的经验而又不失自我进化的空间。


这一方法具有相当的通用性:未来,随着更强大的推理模型出现,我们完全可以将其作为“教师”融入 LUFFY 框架,不断提高“学生”模型的上限;同时,“边学边练”的理念也有望推广到数学之外的其它复杂推理领域,比如代码推理、科学问答等。


对于研发AI应用的工程师来说,LUFFY 的思路也提供了启发:我们无需在“模仿”还是“探索”之间二选一,而是可以设计智能体一边向历史经验学习,一边在实践中创新


目前,LUFFY 的代码和模型已在 GitHub 开源(https://github.com/ElliottYan/LUFFY),有兴趣的读者可以亲自尝试这一“边学边练”的新范式。未来,我们期待看到 LUFFY 在更多领域的探索和改进,持续推动推理模型迈向更通用、更智慧的推理时代。


参考文献

[1] SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

[2] Sft or rl? an early investigation into training r1-like reasoning large vision-language models

[3] Echo chamber: Rl post-training amplifies behaviors learned in pretraining

[4] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

[5] DAPO: An Open-Source LLM Reinforcement Learning System at Scale



更多阅读



#投 稿 通 道#

让你的文字被更多人看到



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·


阅读原文

跳转微信打开

联系我们