动态列表

OpenAI重组GPT-5「灵魂」团队！亚裔女负责人遭调离，罕见自曝AI幻觉祸首
设计师大解放！清华发布「建筑平面图」自动生成模型 | ACL'25
谁不用谁亏！Karpathy吹爆GPT-5：10分钟编码完胜Claude一小时，奥特曼秒回感谢
震撼实锤！清华姚班校友揭「1.4×加速」陷阱：AI优化器为何名不符实？
Anthropic被作家告了，违规下载700万本书，15亿美元和解了
英伟达的局：狂撒15亿美元，从Lambda那租到了搭载自家AI芯片的GPU服务器
OpenAI罕见发论文：我们找到了AI幻觉的罪魁祸首
00后以1.1亿美金「掀桌」，硅谷AI将书写影视新传奇终结制片旧时代
任意骨骼系统的模型都能驱动？AnimaX提出基于世界模型的3D动画生成新范式
IEEE TPAMI 2025｜ PointGST：参数量仅0.67%，精度首破99%，三维点云处理迎来谱域新范式！
ICCV 2025 | MOSEv2 全新亮相，第七届 LSVOS 挑战赛正式开启！
华为新问界 M7，6 小时订单破 13 万；等 eSIM，iPhone17 Air 首发无国行；特斯拉拟给马斯克 1 万亿薪酬
力压哈佛MIT！北交大、清华勇夺2025国际大学生程序设计竞赛金牌
长视频生成可以回头看了！牛津提出「记忆增稳」，速度提升12倍
0.01%参数定生死！苹果揭秘LLM「超级权重」，删掉就会胡说八道
今天，特朗普闭门宴请了大半个硅谷的CEO，马斯克老黄没来
追觅给洗地机，加了一双「灵巧手」
不止会动嘴，还会「思考」！字节跳动发布OmniHuman-1.5，让虚拟人拥有逻辑灵魂
外滩大会主论坛阵容揭幕！顶级学者、产业领袖和青年创新力量共话未来
第一家 AI 浏览器公司，卖了 43 亿！
Nano Banana爆火之后，一个神秘的「胡萝卜」代码模型又上线了
推理加持的排序SOTA！把“召回+相似度”写进RL，文档排序更稳更准
博士申请 | 香港中文大学（深圳）游宇宁老师招收人工智能+生物医药全奖博士/实习生
KDD 2025 | 图异常基础模型来了：跨域零样本、少样本微调，原型残差全拿下
透明度罕见！百川公开M2完整技术报告，强化学习新范式引发行业关注
沉寂一个月，openPangu性能飙升8%！华为1B开源模型来了
多模态大模型持续学习系列研究，综述+Benchmark+方法+Codebase一网打尽！
TPAMI重磅综述：一文读懂人类动作视频生成的五大阶段与三大多模态技术
拓展天文学认知边界，Google DeepMind用AI助力LIGO，填补宇宙演化史缺失环节
拍我AI限时免费6天！手办、宠物、奇幻创意随你生成不限次！
传 DeepSeek AI 代理新模型年底发布；马斯克「金色擎天柱」首曝；比亚迪不回应销量下调传闻
通用LLM压缩算法，居然藏视频编码里！2.5bit实现4bit性能，硬件无缝支持
83岁用DeepSeek抢单，96岁凭AI挣养老钱！这群80+老人比你还会玩AI
「纳米香蕉」LMArena两周500万投票，引爆10倍流量！谷歌、OpenAI扎堆打擂台
DeepSeek大招曝光？梁文峰督战超级智能体：能自主学习，或年底发布
24999 元！华为推了一个「最大」的 Mate！
刚刚，李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了
又多了一个哄孩子AI神器，一张破涂鸦竟能秒变迪士尼动画
PosterGen：告别学术海报制作烦恼，从PDF一键生成「演示级」可编辑PPTX学术海报
「一句话生成爆款视频」，这款 AI 流量神器有点东西｜AI 上新
Claude Code凭什么牛？大模型团队天天用自家产品，发现bug直接就改了
刚刚，OpenAI发布白皮书：如何在AI时代保持领先
科研AI的进化论！系统梳理600+数据集与模型，上海AI Lab等发布科学大语言模型全景式综述
腾讯 ARC Lab 开源 IC-Custom ：一个强大且灵活的图像定制化工具！
长视频AI数字人来了！字节×浙大推出商用级音频驱动数字人模型InfinityHuman
全奖读AI！人工智能专业排名全球前10的MBZUAI启动本硕博项目招生
SIGCOMM 2025｜重新定义个性化视频体验，快手与清华联合提出灵犀系统
拜读了某大佬发表的N篇顶会，原来论文“灌水”是这么玩的
北京内推 | 阿里夸克教育团队招聘推荐大模型数据算法实习生
听见空间！ASAudio全景综述：空间音频表示→理解→生成全链路
多模态大模型，真的“懂”世界吗？ICML 2025高分论文实锤核心认知盲区
特斯拉下一代金色Optimus原型现身？一双「假手」成为最大槽点
让具身智能体拥有「空间感」！清华、北航联合提出类脑空间认知框架，导航、推理、做早餐样样精通
传特斯拉 Model Y L 日均订单过万；苹果联手谷歌，Siri 整合 Gemini；优必选获 2.5 亿，全球最大人形机器人订单
UCSD首个智能体浏览器发布！多页面设计，颠覆传统交互
Hinton最新警告：杀手机器人或将带来更多战争，最大担忧是AI接管人类
AI教父Hinton诺奖演讲首登顶刊！拒绝公式，让全场秒懂「玻尔兹曼机」
奥数金牌只是序章！OpenAI谷歌彻底打脸预言家，AI巨浪势不可挡
出货 1000 万台硬件后，我们和「凯叔讲故事」聊了聊「AI玩具」的核心
他不懂代码，却用 AI 黑掉 17 家医院和机构，Vibe Hacking 让全世界变成缅北
刚刚，谷歌放出Nano Banana六大正宗Prompt玩法，手残党速来
Anthropic承认模型降智后仍放任其偷懒？Claude Code用户信任崩塌中
ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成
ICLR 2025｜KGExplainer：让新知识的发现“有理可循”
入局AI4S？CPO宣布「OpenAI for Science」计划：打造下一代科学工具
2025外滩大会下周开幕 16位院士、图灵奖得主领衔40多场思想盛宴
从复刻魔术开始，RoboMirage打开了机器人仿真的新世界
宇树科技官宣：年内提交IPO，或将冲刺科创板
其实，扩散语言模型在最终解码之前很久，就已确定最终答案
语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究
北京/苏州内推 | 微软亚太研发集团招聘AI智能预测实习生
原子思维上线！Agentic Deep Research再进化：推理更深、答案更准
【9月9日直播】大模型复杂推理技术：如何重塑AI推理逻辑
Benchmark新试炼场！从棋盘到德扑全覆盖，GAMEBoT虐测大模型推理力
USO：鱼与熊掌亦可兼得，字节跳动提出统一框架，完美融合主体与风格生成
刚刚，Anthropic在质疑声中获130亿美元融资，估值达1830亿
IROS 2025 | 机器人衣物折叠新范式，NUS邵林团队用MetaFold解耦轨迹与动作
iPhone 17定价曝光，仅Pro涨价；李斌：4季度实现月卖5万台车；COD「使命召唤」大电影官宣｜极客早知道
一张卡片，不仅 AI 了我的工作，还摸清了我的八字和 MBTI？｜AI 上新
马斯克曝终极AI计划！特斯拉堵上80%身家：500亿机器人打工，人类坐等拿钱
别错过这场AGI风暴！清华人大等AI大佬集结，剑指数字和物理世界进化
AI杀死首个世界名校？全球TOP 3「翻译界哈佛」倒闭，毕业校友成绝版
无惧AI失业潮的「铁饭碗」，微软揭秘了！能干到退休
为什么在小红书里的「电商」，长成了「市集」的模样
开学&教师节双重豪礼，英博云算力低至8毛8/卡时，赶紧薅起来
苹果新研究：不微调、不重训，如何让AI提问效率暴增6.5倍？
Scaling Laws起源于1993年？OpenAI总裁：深度学习的根本已揭秘
告别无效计算！新TTS框架拯救19%被埋没答案，推理准确率飙升
结构高度合理、具备理想特性，华东师大等提出分子生成新方法，协同生成原子与化学键
博士申请 | 北京大学计算机学院-中国电信招收计算机视觉方向联培博士生
ACM MM Asia火热征稿中！低年级PhD友好，不卷SOTA只看新意
经典机械物理模型 × 深度学习：揭开神经网络特征学习的秘密
ICML 2025 | 从联合空间到文本空间：测试时增强跨模态检索新范式
冲上热搜！美团大模型，靠「快」火了
DeepMind爆火论文：向量嵌入模型存在数学上限，Scaling laws放缓实锤？
ICCV 2025 | InterVLA：聚焦第一视角感知决策，大规模通用人-物-人交互数据集与评测基准
AI读网页，这次真不一样了，谷歌Gemini解锁「详解网页」新技能
性能逼近闭源最强，通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA
广告，救不了 AI 搜索
14B打败671B！微软rStar2-Agent在数学推理上超过DeepSeek-R1
自搜索强化学习SSRL：Agentic RL的Sim2Real时刻
全球机器翻译比赛拿下30个语种第1名，腾讯混元翻译模型开源
腾讯回应米哈游起诉：QQ用户资料不能随便给；特斯拉首曝Cyber SUV；外卖「小电驴」须装北斗定位｜极客早知道
NeurIPS近3万投稿爆仓，强拒400篇论文！博士疯狂内卷，AI顶会噩梦来袭
同行评审濒临崩溃！一篇审稿报告450美元？科学家不再愿意「用爱发电」
CEO卷款夜逃迪拜，15亿美元独角兽爆雷！700印度码农冒充AI，坑惨微软
刚刚，DeepSeek最新发文！V3/R1训练细节全公开，信息量巨大
让图像会说话！视觉Token注入CLIP语义，TokLIP重塑多模态理解与生成
EMNLP 2025｜人声解耦×伴奏对齐！浙大VersBand打造提示可控的歌曲生成框架
北京内推 | 联想研究院AI Lab招聘大模型算法实习生
GRPO偷偷优化Pass@K？从0-1奖励到无偏策略，DeepMind揭示全面解法
快手的 2025：一个4亿人社区的新陈代谢，与2600万人的变现之路
开学了：入门AI，可以从这第一课开始
OpenAI大神：人工智能导论课程停在15年前，本科首选该是机器学习导论
中国电竞，已经是 Next Level！
NeurIPS 2025：高分论文也可能被拒，只为保住那25%左右的接收率？
DeepSeek、GPT-5都在尝试的快慢思考切换，有了更智能版本，还是多模态
把实验与计算「缝」到一张「地图」上：AI让材料发现路线更直观、可解释
字节跳动提出OneReward：一个奖励模型统一多任务图像生成，效果全面超越PS！
从「卖设备」到「建关系」，AI 硬件的破局点到底在哪里？
首个为具身智能而生的大规模强化学习框架RLinf！清华、北京中关村学院、无问芯穹等重磅开源
科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生
科研智能体「漫游指南」—助你构建领域专属科研智能体
今起 AI 生成内容必须亮明身份；大疆双摄 Pocket 4 曝光；微信公号留言广告上线
GPT-5冷酷操盘，狼人杀一战封神！七大LLM狂飙演技，人类玩家看完沉默
柳叶刀惊曝：AI让医生6个月「废功」20%，癌症检出率崩盘！
硅谷炸雷！xAI创始老哥携机密叛逃OpenAI，马斯克：他上传了整个代码库
143亿美金买来一场空！小扎向谷歌OpenAI低头，史上最大AI赌注失速
北京内推 | 微软DKI大模型团队招聘大模型/Agent/广告推荐方向研究型实习生
性能超越GPT-5，成本减30%！大模型装上智能路由，Avengers-Pro刷新性价比极限
EMNLP 2025 | 看图就越狱！视觉上下文攻击：“图像语境”一招撬开多模态大模型
动态压缩CoT！浙大×蚂蚁发布LightThinker，让模型推理“轻起来”
POSE：100倍加速视频生成，腾讯混元提出单步对抗平衡蒸馏框架
那天，AI大模型想起了，被「失忆」所束缚的枷锁
LLM也具有身份认同？当LLM发现博弈对手是自己时，行为变化了
AI智能体是否能预测未来？字节跳动seed发布FutureX动态评测基准
混乱、内耗、丑闻：Meta考虑向Google、OpenAI低头
这个荒诞网站藏着30个AI「鬼点子」，但我觉得它活不长
R-Zero 深度解析：无需人类数据，AI 如何实现自我进化？
DeepSeek、GPT-5带头转向混合推理，一个token也不能浪费
CodeAgent 2.0 时代开启｜GitTaskBench，颠覆性定义代码智能体实战交付新标准

被网友逼着改名的谷歌Nano Banana，正在抢99%时尚博主的饭碗

2025-09-05机器之心来源

谷歌听劝。

上周，谷歌给 Nano Banana 改了个正儿八经的名字，网友一片哗然，疯狂吐槽新名字 Gemini 2.5 Flash Image 又长又无聊，完全没有记忆点。

好在谷歌听劝。

有眼尖的网友发现，谷歌已经悄悄把 AI Studio 里 Gemini 2.5 Flash Image 的名字换回了 Nano Banana。

甚至还有网友提议，以后所有 AI 模型都用水果和蔬菜来命名，这样更有趣，也比那些 AI 公司一贯糟糕又拗口的命名方式要好得多。

言归正传。

前几天我们盘点了 Nano Banana 的七种神仙玩法，其中呼声最高的就是生成 OOTD 这一趴。

所以，今天我们索性就来一期「砸」时尚博主饭碗的整活特辑。

生成明星 OOTD

「OOTD」是 Outfit of the Day 英文缩写，意思是今日穿搭。

如果你经常混迹 ins、微博、小红书，就会发现明星们也很爱晒穿搭照片，倪妮、舒淇、高圆圆、钟楚曦都是出了名的私服大户。

很多时尚博主就专门收集她们的穿搭照，整理成一份份清单，方便时髦精们跟着明星学穿搭。

但这是个苦力活，每一步都是耗费心力的大工程：

从大量零散的活动照、街拍图里找出清晰可用的明星造型图；
逐一识别衣服、鞋子、包包和配饰等单品来源；
在最短时间里整理清单内容，把单品的品牌名、具体型号、参考价格甚至购买渠道一一标注；
最后还要做视觉设计，将明星造型图和单品对照图排版在一张图里，配上简洁的说明和价格标签。

而且这个圈子也是相当卷，明星造型更新速度非常快，博主必须争分夺秒抢发布，否则就会被其他账号捷足先登，失去传播价值。

现在有了 Nano Banana，工作流程就简单多了。

以倪妮一次活动私服为例。

打开 Google AI Studio，选择 Nano Banana，上传参考图，输入提示词：

Generate a flat lay OOTD outfit image from a top-down perspective based on the uploaded reference photo, ensuring that the clothing, accessories, and shoes are replicated 1:1 from the reference.（请根据上传的参考照片，生成一张俯拍平铺的 OOTD 穿搭图，服装、配饰、鞋子需与上传的参考照片 1:1 复刻）

链接：https://aistudio.google.com/

为了生成结果更准确，可以多丢几张各种角度和姿势的参考图。

^{图1和图2为参考图，图3为Nano Banana生成的OOTD}

Nano Banana 可以精准捕捉穿搭细节，比如不对称剪裁、下摆流苏、露肩设计、酒红色长裙以及黑色尖头短靴都被准确复刻。

当然也有小 bug，比如针织衫显得不够修身，金色圆形珍珠耳坠也对不上号。

下面这一套 OOTD 整体生成效果也不错，只不过原图中的微喇西装裤，在生成图里被偷换成了直筒裤。

^{左图为参考图，右图为 Nano Banana 生成的 OOTD}

我们还可以把提示词润色得更详细一些，生成效果也更好：

From the uploaded reference photo, extract the outfit and recreate it as a high-quality top-down flat-lay OOTD board. Requirements:

Include only the visible clothing and accessories from the reference: top, bottom, shoes, and jewelry if present.
Keep colors, textures, and silhouettes accurate to the original outfit.
Arrange the pieces neatly in a balanced composition: tops at the top, bottoms centered, shoes placed symmetrically below, accessories arranged to the sides.
Use a clean, neutral background (light beige or warm fabric texture) to highlight the outfit.
Show realistic fabric folds, natural shadows, and detailed textures.
Present the result in a modern editorial style suitable for fashion magazines or social media posts.
Do not add extra props, models, or logos.
Output in high resolution with crisp edges and consistent lighting.

再来个进阶版本，让它生成一张带有品牌名称标注的舒淇造型清单图。

结果发现，Nano Banana 一次性生成成功概率很低：要么听不懂指令，要么就是拆解后的单品货不对版、品牌名称标注错误。

^{输入提示词：Generate a celebrity OOTD outfit checklist by identifying and breaking down each item, including clothing and accessories. Then, create an outfit breakdown image with the brand name written below each item, and include a reference price if available (omit the price if it cannot be found).Nano Banana 将礼服和配饰的品牌名称全部识别错误。}

我们换了个思路，分两步走：

第一步，打开 Gemini 2.5，上传图片，询问「图中的礼服和珠宝分别来自哪个品牌？」Gemini 2.5 正确识别出礼服来自阿玛尼，珠宝来自宝格丽。