动态列表

  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道
  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售
  • AAAI 2026 Oral | 清华大学等提出SpatialActor:解耦空间感知,重度噪声下机器人操作鲁棒性暴涨19.4%
  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策
  • 全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考
  • OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
  • LeCun在Meta的「最后一作」
  • 视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源
  • 大疆 OSMO Action 6 体验:完美进化,不止运动
  • iOS 为微信小程序「正名」,腾讯移动生态的新转机
  • “全模态”3D视觉基础模型OmniVGGT出炉!即插即用任意几何模态,刷新3D视觉任务SOTA,赋能VLA模型
  • WACV 2026 | PALMS+:融合深度基础模型,手机室内导航的技术再突破
  • GPT 5.1 发布了,但西方媒体准备「讲好中国故事」
  • AI、游戏双驱动,腾讯「赚麻了」
  • 对话李彦宏:Chatbot 不是一切,我在 AI 上看到了更让人兴奋的未来
  • OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
  • ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
  • 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
  • 传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 |极客早知道
  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒
  • 奥特曼下注27岁神秘青年,「复活」世界最顶级实验室
  • AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
  • Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」
  • 少年沉迷AI自杀,9岁遭性暗示!这门「孤独生意」,正推孩子入深渊
  • NeurIPS 2025 | 中科院携手快手发布LiveStar:首个“会说话、懂沉默”的直播AI,推理速度提升1.53倍
  • ConsistEdit:重新定义AI视觉编辑,港科大、清华等机构提出MM-DiT注意力控制新方法
  • AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”
  • 双十一算力真敢卷!RTX 5090低至0.69元/时,同预算跑更多实验
  • 北京内推 | 阿里高德地图团队招聘大模型方向算法实习生(可长期/转正)
  • 对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
  • 深度复盘:大疆是如何成为影像领域新巨头的?
  • 传李想亲抓人事,华为系高管退出理想;Meta 首席 AI 科学家杨乐昆离职创业;AI 减肥或致饮食失调
  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • 3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东

让千问APP当一周科研打工人:它比我想的能干,也比我想的累

原创 让你更懂AI的 2025-11-17 11:02 北京

一键打包“博士的一周”

我把自己一周的博士日常全塞进了千问 APP——读论文、啃图表、跑实验、写 related work、救火 debug……结果用着用着,我突然有点怀疑:这手机里的模型,可能比我更像个 PhD。

这两年,大模型的主战场悄悄从网页和桌面端往手机里迁。从偶尔打开网页问两句,到随手掏出来当默认工具,这件事终于开始变得现实。

千问 APP 公测时给自己贴的标签是多模态、长文本、复杂推理、专业问答。听上去确实很对味,但对科研狗来说真正的问题只有一个:在论文、实验、写作、debug 这些硬核场景里,它到底能不能接住活?

我的背景也很简单:AI 方向在读博士,白天对着 PDF 和实验图表发呆,晚上和训练日志对线,还得时不时帮别人改 related work

每天的工作流就是:几十页的论文、花里胡哨的实验曲线、动不动就爆炸的训练过程,以及永远写不完的稿子。

所以这次我不测花活,也不看它会不会讲段子。我只关心一件事:如果把它当成一个随身的科研打工人,它能不能撑住博士生的那套工作节奏。

我把博士生的一周拆成了五个典型任务,按顺序全扔给千问。所有测试都在主对话里完成,不切模式、不点应用中心,尽量贴近日常使用。

Case 1. 论文 PDF:它读论文的方式,竟然跟我差不多

这次我挑了一篇结构不算轻松的论文:《Black-Box On-Policy Distillation of Large Language Models》。内容涉及蒸馏、对抗学习、on-policy 优化、GPT-5 黑盒场景……属于那种读到一半脑袋开始发热的类型。

我把论文 PDF 扔进千问,设定两轮提问来测试它的理解能力。

第一轮:抓重点

提示词

我现在想快速抓住这篇论文的重点,请你仔细精读全文,帮我讲清楚三件事:

1)它主要解决什么问题?

2)作者最想强调的三点贡献是什么?

3)最后再用一句话概括:这篇论文的核心价值在哪?

千问的回复截图:

第一轮里,千问的总结很“组会感”:问题、贡献、核心价值三件事都抓得紧,也没有废话。读下来能感到它是真把重点看懂了。

第二轮:论文复现清单

提示词

我现在准备复现这篇论文,请你按照「数据构建 → 模型结构 → 训练设置 → 评测流程」四个维度,整理一个我复现必须关注的清单。

尽量结构化,能保证我照着做就能复现。

千问的回复截图:

上下滑动,查看完整回复

这个复现清单看着就像是经常跑实验的人写的:数据怎么整、训练怎么配、判别器怎么起、评测怎么跑,都给到了能立刻跑实验的程度,没有凑字数,也没有瞎猜。

Case 2. 实验图:一个在看图,一个在脑补

第二个任务我选了一张很常见的折线图——两条线一路抖着往上走,步子没几步,但情绪比我写 rebuttal 时还不稳定。

我把图丢给千问和 ChatGPT,让它们先读一遍,再看在复现视角下它们能不能抓到重点。

第一轮:读图

提示词

我给你传了一张实验图,请你帮我把它看清楚:

1)横轴、纵轴分别代表什么?

2)每条曲线分别对应什么方法?

3)这张图最关键的结论是什么?

注意:一定要基于图里能看到的内容,不要脑补。

千问的回复截图:

千问的分析很扎实。哪个区间在涨、哪里在抖、哪条线从哪步开始甩开,都能指到具体位置。能感到它确实是在盯着图看。

ChatGPT 的回复截图:

ChatGPT 像是预设了一个“实验该长什么样”的模板,开口就讲收敛和效率。听着不违和,但图里并没有这些证据。

第二轮:复现视角

提示词

换个角度:如果我要复现这组实验,你觉得这张图里最值得注意的三条观察是什么?

每条观察都要能指到图的具体位置,并简单说说可能的技术原因(按图里的趋势来推,不要凭空想)。

千问的回复截图:

千问继续保持稳定输出。三条观察都能指到坐标区间,推断也基于曲线形状本身。

ChatGPT 的回复截图:

上下滑动,查看更多回复

ChatGPT 提到的早期信号、中期停滞、后期噪声这些概念很像过往经验,但这张图本身并没有提供这些线索。

Case 3. 审稿人模式:能不能挑出论文里的硬伤?

这次我给千问上传了一篇 OpenReview 上的 ICLR 2026 投稿论文 PDF。

论文内容从几十到几百门语言一路铺到百亿级 tokens,中间还塞了语言多样性和 pivot 语言。读到第三页基本就开始犯困,只能顺手点杯美式续命。

提示词

这是我最近在 OpenReview 上看到的一篇 ICLR 2026 投稿。我把论文 PDF 给你了。

请你用审稿人模式精读一遍,重点说三件事:

1)它最值得肯定的点是什么?

2)最核心的问题是什么?(请指出具体位置,例如“方法 2.2 里逻辑跳跃”)

3)如果让作者立刻改,你会给出哪些可执行的建议?

按论文本身说话,不要套审稿模板。

千问的回复截图:

上下滑动,查看更多回复

这一轮千问的风格很直接:不铺垫、不客套,盯着实验设计哪里合理、哪里不对劲,说的问题也都能精确到页码或段落,翻一下就能验证。给出的建议也是能让你立刻在 Overleaf 照着修改的那种。

图片

Case 4. 训练日志:谁能看懂模型为什么炸了?

这次我没出阅读理解,也没出数学题,只将一张模型训练日志截图发给了千问和ChatGPT,看它俩谁能先找出锅在哪。

我让它们基于这张截图判断:到底是哪一步炸的?为什么炸?如果现在就要修掉,要怎么下手?

第一轮:事故现场是什么?

提示词

我截了一张训练日志的图给你,你帮我看看训练到底是在哪里炸掉的?是什么导致的?

请直接基于日志本身分析,不要给模板化回答。

千问的回复截图:

千问一眼就锁定了 step 133、loss.backward()、OOM 这一串线索,还把 seq_len 从 1024→2048 后显存怎么被吃满的过程讲得很清楚。

ChatGPT 的回复截图:

上下滑动,查看更多回复

ChatGPT 更像在写事故复盘:先重述配置,再讲注意力复杂度、碎片化、fp16。内容不出错,但不少结论并不是从截图里推出来的,更像是根据经验把“可能的原因”都列了一遍。

第二轮:那怎么修?

提示词

那如果现在要我复现并修掉,你会怎么做?

请基于日志里能看到的具体现象,给一个工程上真正可执行的 debug 方案,而不是泛泛建议。

千问的回复截图:

上下滑动,查看更多回复

千问给的建议很务实:调 batch、开梯度累积、加 checkpoint、补显存日志——都是能立刻验证的那种。

ChatGPT 的回复截图:

上下滑动,查看更多回复

ChatGPT 给出的是一整套“大而全方案”,从 allocator 到多卡再到碎片调参全覆盖。看着全面,但和截图里给的线索并没有特别强的对应关系。

图片

Case 5. Related Work:它能写得让我愿意读下去吗?

写 Related Work 的痛苦你懂的:脑里有十篇论文,手里只有一句 “Recent studies…”。

所以这次我干脆把任务扔给千问,看它能不能把这一段写得自然流畅,又能顺着我的研究方向把话接下去。

提示词

我现在要写论文的 Related Work(英文)。主题是长上下文 LLM。

我把几篇代表性工作给你作参考:Transformer-XL、Longformer、BigBird、Memorizing Transformer、Retentive Network、Gemini 1.5。

请你帮我写一段自然的英文 Related Work,不要逐篇介绍,也不要写成综述式列表。

我想要表达的核心是:

1)大家是怎么一步步突破长上下文瓶颈的

2)这些方法为什么仍然没完全解决 long-context 下的稳定性 / consistency 问题

3)最近的大模型(例如 Gemini 1.5)在更大尺度上怎么继续延伸这条线

不要模板句式,不要堆名词,写得顺一点、连贯一点。

千问的回复截图:

它写出来的 Related Work 像是在讲长上下文模型这些年的技术演进:从 Transformer-XL 的瓶颈,到 sparse attention,再到外部记忆和 RetNet,最后自然落到 Gemini 1.5。

整体是把一条路线讲顺,而不是逐篇点名文献,风格也更轻松。

图片

它为什么比我还稳定?

五个 Case 跑下来,我最直观的感受就是:它怎么这么稳?

其实原因不复杂:千问的底层能力刚好长在科研场景的痛点上:

1. 长文本扛得住:几十页 PDF、十万字材料塞进去不会断片,不会中途忘前文。论文越长越容易看着看着断线,它很少出现这种情况;

2. 推理链条不断:不管是拆方法、读图、还是查日志,它的思路都能一直顺着往下走,不飘、不乱跳。你问一句,它不会反问你三句,非常节省脑力;

3. 多模态细节抓得准:无论是实验图,还是训练日志截图这种零碎输入,它都能抓得住细节。这就是它在 Case 2 看图、Case 4 查日志表现稳的根本原因:它是真的在看,不是在猜。

说实话,千问的强不仅仅是“模型多猛”,更多的是它刚好特别吃科研这套输入:PDF、图表、代码、long log……你塞什么它都能顺着你的问题继续往下走。

图片

写在最后

千问 APP 的产品取向很明显——核心能力全堆在一个地方:主对话。其他全部做减法。

不用换模式、不用跳页面、长文本/PDF/截图全在一个对话里解决。对写论文、跑实验、改稿子的研究生来说,少切换点界面、少想一步是什么,比堆一堆花哨功能更实在。

五个 Case 跑完,我的整体感受很简单:它不是万能,但它在科研场景里是真的好用。稳定、直接、不绕弯,也不会把你往奇怪方向带。

如果哪天它突然要收费,我嘴上肯定会抱怨,但是大概还是会点续费。

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们