动态列表

  • Z世代生存、学习与未来宣言!伯克利学霸预言课堂,用AI设计人生
  • AI来了!记者、UP主、写手,谁能逃过这场「灭绝浪潮」?
  • Hinton预言成真!AI接管美国一半白领,牛津哈佛扎堆转行做技工
  • 为什么「游戏」是 AI 陪伴落地的好场景?
  • 新加坡 AI 办公系统 Agnes:200 个 Agent 并行研究,让 AI 主动「找茬」打磨设计
  • 机器人也会「摸鱼」了?宇树G1赛后葛优瘫刷美女视频,网友:比人还懂享受生活
  • 从GPT-2到gpt-oss,深度详解OpenAI开放模型的进化之路
  • NextStep-1:一次在图像生成上自回归范式的探索
  • KDD 2025 | UoMo来了,首个无线网络流量预测模型,一个框架搞定三类任务
  • 开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍
  • 一张图,开启四维时空:4DNeX让动态世界 「活」起来
  • AI发现新物理定律:纠正等离子体理论多年错误假设
  • 多模态大模型在化学与材料学的「体检表」——哪些能力靠谱,哪些还差很远?
  • Altman:希望 AGI 能提高生育率;与辉同行否认董宇辉年收入二三十亿元;今年国内智能眼镜市场同比增长121.1%
  • 刚刚!谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代
  • 硬核拆解!从GPT-2到gpt-oss,揭秘大模型进化关键密码
  • 黄仁勋子女逆袭上位!4万亿「皇储」成长史首曝:一个学烘培,一个开酒吧
  • GPT-5首次会推理,OpenAI联创曝AGI秘诀!超临界学习吞噬算力,2045金钱无用?
  • 400万人围观的分层推理模型,「分层架构」竟不起作用?性能提升另有隐情?
  • CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力
  • SEAgent:开启从实战经验中自我进化的GUI智能体新纪元
  • OpenAI估值达5000亿美元;「原道」联手小岛秀夫,推《死亡搁浅》耳机;苹果手表将「大幅重新设计」
  • 奥特曼神秘晚宴讲话曝出!OpenAI的CEO或将是个AI,Chrome我也想买
  • 谷歌最新「0.27B」Gemma 3开源!身板小却猛如虎,开发者直呼救命稻草
  • 最惨就业季!CS学霸GPA 3.98,投2500份简历仅10次面试,AI吞噬入门级岗位
  • Yann LeCun最新纪录片首曝!传奇AI教父的双面人生,深度学习幕后40年
  • 机器人全产业链接会 FAIR plus 2026新闻发布会在京召开
  • 大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲
  • 当AI比我们更聪明:李飞飞和Hinton给出截然相反的生存指南
  • 简单即强大:全新生成模型「离散分布网络DDN」是如何做到原理简单,性质独特?
  • Sam Altman:AI存在泡沫;宇树机器人夺金,王兴兴:用遥控追求极致速度;蔡浩宇AI游戏上架,27.19元|极客早知道
  • 吞下17亿图片,Meta最强巨兽DINOv3开源!重新定义CV天花板
  • 打开高德的理由又多一条!全球首个「需求链智能调度」AI地图上线
  • 核心模型被曝蒸馏DeepSeek?前女友一纸控诉,曝出欧版OpenAI塌房真相!
  • 一句话搞定多任务出行,高德用空间智能重新定义地图
  • GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了
  • 谷歌开源Gemma 3 270M,性能超越Qwen 2.5同级模型
  • 追剧不断网,可能背后有个AI在加班,故障诊断准度破91.79%
  • Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源
  • 多突触神经元模型问世,国内团队打造类脑计算新引擎,登上《自然·通讯》
  • Science封面:高效精准模拟构象变化,微软研究院用生成式AI重塑蛋白质功能研究
  • 扎克伯格看OpenAI直播挖人,北大校友孙之清加入Meta
  • AI 模特时代到来:字节x清华推出商用级视频换装模型DreamVVT,保真度显著领先SOTA
  • LeetCode刷够100小时,学会找人内推,OpenAI员工下场教你拿Offer
  • xAI元老离职干风投,传奇人物Babuschkin长文追忆与马斯克创业战友情
  • 链式思维是幻象吗?从数据分布视角重新审视大模型推理,马斯克回复,Grok破防
  • 李想:i8 反响不错,产品力没对手;库克暗示:苹果将推桌面机器人;中国日均消耗 30 万亿 Token,暴涨 300 倍
  • ChatGPT会让大脑退化?OpenAI高管用它救下自己「读写障碍」的女儿
  • 谷歌超级编码智能体正式上岗!125刀大会员,每天300任务任意跑
  • Meta华人天才毕树超「叛逃」预言:OpenAI未竟交互革命,暗藏万亿赛道
  • 美国CS就业梦碎!狂投5000家0 Offer,名校毕业00后被麦当劳惨拒
  • 3 分钟,我学会了像鸟儿一样飞行 | New Things
  • 从隐私计算迈向六大数据流通全栈技术,“隐语”开源社区升级
  • 7天,一场风暴!理想 i8「刮骨疗毒」,怒砍两个版本
  • 小订过万!打死不说价格的全新小鹏 P7,用颜值吊起了所有人的胃口!
  • 对话理想智驾负责人:撕掉「奶爸车」标签,智驶是理想的「新引擎」
  • 告别「偏科生」时代!36 万的坦克500,让对手从此无路可走
  • 万字长谈王小川:不再迎合他人做学霸,我要解自己的命题
  • 刚刚,全网最懂图文调研的智能体模型震撼上线,看完我直接卸了浏览器
  • ICCV 2025 | HVPL:分层视觉提示学习,让“视频实例分割”模型告别灾难性遗忘
  • 复旦&微软提出StableAvatar: 首个端到端“无限时长”音频驱动的人类视频生成新框架!
  • 千支队伍争锋!首届「启智杯」算法大赛圆满落幕,助推AI应用落地
  • 冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世
  • ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
  • 苹果 AI 下半场:年底问世的新 Siri,要彻底改变 iPhone 的交互
  • GNN+KAN,把三角函数当「激活」选项,山大、南洋理工让分子图更会读化学子结构
  • 港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体
  • 破解「长程智能体」RL训练难题,腾讯提出RLVMR框架,让7B模型「思考」比肩GPT-4o
  • AI独角兽498家,估值2.7万亿美元;《王者荣耀》连续三年成全球最吸金手游;抖音测试「快递」服务|极客早知道
  • 奥特曼公然叫板马斯克!重金杀入脑机接口,硅谷两大巨头彻底决裂
  • AI女友24h陪玩,全球800万人上头!这群AI创企靠百度开挂
  • 马斯克删除xAI「研究员」职位引爆网络!LeCun怒批:如此暴力将扼杀创新
  • OpenAI女CEO太狠了!智商148,GPT-5才是真印钞机
  • AI 和海外游戏发力,腾讯重回 7000 亿美金
  • ICML 2025 | 奖励模型还用人标?APEC用对抗模仿生成偏好,泛化能力直线上升
  • Attention Sink的起源找到了?清华×美团首次锁定MoE中的「超级专家」
  • 博士申请 | 休斯敦大学计算机系刘锦阳老师招收高性能计算/数据压缩方向博士生
  • Kimi K2背后的冷门绝招:海量语料“重写”如何榨干每个token?
  • 告别Transformer,重塑机器学习范式:上海交大首个「类人脑」大模型诞生
  • AI 上新|在 Edge 浏览器里,我第一次感受到了 AI 的「人味」
  • Agent狂欢下的冷思考:为什么说Data&AI数据基础设施,才是AI时代Infra新范式
  • AI顶会模式出了问题? 「不发表,就出局」的恶性循环,正在压垮整个AI学界
  • 研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现
  • 多模态大脑建模技术迈入新纪元:Meta 10亿参数模型获Algonauts 2025大脑建模竞赛冠军
  • 当人们怀念 GPT-4o,他们在「怀念」什么?
  • OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了
  • IEEE TPAMI 南洋理工&哈工大提出 MARCONet++ 攻克中文文本图像超分难题
  • 耶鲁&大连理工&南洋理工等提出MDCNeXt:X射线下的“动力电池缺陷精准检测”新范式
  • 6秒造一个「视频博主」,Pika让一切图片开口说话
  • 破解AI创企的「不可能三角」,解药不止「大模型」
  • OpenAI和奥特曼将投资一家脑机接口公司,直接与马斯克的Neuralink竞争
  • 大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO
  • 传 DeepSeek-R2 8 月发布;微信测试信用借款功能;Perplexity 要 345 亿美元收购 Chrome
  • 一觉醒来,GitHub没了?CEO辞职,微软接管,开发者天塌了
  • AI全国榜单爆冷,全网吃瓜大狂欢!这家黑马竟靠DeepSeek杀进全国TOP 2
  • 物理学「AlphaGo时刻」?40年未竟之事被AI一举攻破,顶尖物理学家集体傻眼
  • 刚刚,商汤内部两万字复盘曝光:多模态通往AGI核心路线首次公开
  • 让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源
  • 从物竞天择到智能进化,首篇自进化智能体综述的ASI之路
  • 破解效率与成本难题:华为UCM技术推动AI推理体验升级
  • SIGGRAPH上,英伟达发布物理AI开源新技术,更新RTX Pro产品线
  • 身家25亿刀,是四家公司创始人,这位伯克利教授还在给本科生上课
  • 商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁
  • 北京内推 | 度小满金融视觉和多模态团队招聘视觉多模态算法实习生
  • 后训练轻量「小枝」强势出击!极限剪裁视觉token,推理加速154%
  • 实验室抢显卡抢破头?A800/H800骨折价来袭,超值返券助你轻松冲DDL!
  • TCSVT 2025 | 跨模态学习助力复杂工业过程异常检测:FmFormer框架与基准测试新突破
  • ICCV 2025 | LightSwitch:CMU提出材质引导的扩散模型,2分钟实现高质量三维场景重打光
  • AI全面挖掘微蛋白价值:首次引入合成负样本训练,剔除92%噪声,摆脱保守依赖
  • 是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了
  • 东方理工·甬江论坛|新大学、新使命,邀你共启未来
  • LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
  • ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace
  • 聚焦前沿,见证未来!「X·创新』产品SHOW圆满举办!
  • 刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌
  • Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型
  • 雷军:小米YU7改名,被误会是丐版;传淘宝闪购周末峰值超美团;低价 MacBook 或年底亮相,599 美元

一句话,性能暴涨49%!马里兰MIT等力作:Prompt才是大模型终极武器



  新智元报道  

编辑:桃子
【新智元导读】提示词才是AI隐藏的王牌!马里兰MIT等顶尖机构研究证明,一半提示词,是让AI性能飙升49%的关键。

AI性能的提升,一半靠模型,一半靠提示词。

最近,来自马里兰大学、MIT、斯坦福等机构联手验证,模型升级带来的性能提升仅占50%,而另外一半的提升,在于用户提示词的优化。

他们将其称之为「提示词适应」(prompt adaptation)。

论文地址:https://arxiv.org/pdf/2407.14333v5

为此,他们让DALL-E 2和DALL-E 3来了一场PK,1,893名「选手」在10次尝试中,用随机分配三种模型之一复现目标图像。

令人惊讶的是,DALL-E 3图像相似度显著优于DALL-E 2。

其中,模型升级本身仅贡献了51%的性能,剩余的49%全靠受试者优化的提示词。

关键是,那些没有技术背景的人,也能通过提示词,让DALL-E 3模型生成更好的图片。

OpenAI总裁Greg Brockman也同样认为,「要充分发挥模型的潜力,确实需要一些特殊的技巧」。

他建议开发者们去做「Prompt库」管理,不断探索模型的边界。

换言之,你的提示词水平,决定了AI能不能从「青铜」变成「王者」。


别等GPT-6了!
不如「调教」提示词

GenAI的有效性不仅取决于技术本身,更取决于能否设计出高质量的输入指令。

2023年,ChatGPT爆红之后,全世界曾掀起一股「提示词工程」的热潮。

尽管全新的「上下文工程」成为今年的热点,但「提示词工程」至今依旧炙手可热。

然而共识之下,提示词设计作为一种动态实践仍缺乏深入研究。

多数提示词库和教程,将有效提示视为「可复用成品」,但却用到新模板中可能会失效。

这就带来了一些现实的问题:提示策略能否跨模型版本迁移?还是必须持续调整以适应模型行为变化?

为此,研究团队提出了「提示词适应」这一可测量的行为机制,用以解释用户输入如何随技术进步而演进。

他们将其概念化为一种「动态互补能力」,并认为这种能力对充分释放大模型的经济价值至关重要。

为评估提示词适应对模型性能的影响,团队采用了Prolific平台一项预注册在线实验数据,共邀请了1,893名参与者。

每位受试者被随机分配三种不同性能的模型:DALL-E 2、DALL-E 3,或自动提示优化的DALL-E 3。

除模型分配外,每位参与者还独立分配到15张目标图像中的一张。这些图像选自商业营销、平面设计和建筑摄影三大类别。

实验明确告知参与者模型无记忆功能——每个新提示词均独立处理,不继承先前尝试的信息。

每人需要提交至少10条提示词,需通过模型尽可能复现目标图像,最优表现者将获得高额奖金。

任务结束后参与者需填写涵盖年龄、性别、教育程度、职业及创意写作/编程/生成式AI自评能力的人口统计调查。

随机分配,10次生成

实验的核心结果指标,是参与者生成的每张图像与指定目标图像之间的相似度。

这项指标通过CLIP嵌入向量的余弦相似度进行量化。

由于生成模型的输出具有随机性,同一提示词在不同尝试中可能产生不同的图像。

为控制这种变异性,研究人员为每个提示词生成10张图像,并分别计算它们与目标图像的余弦相似度,随后取这10个相似度得分的平均值作为该提示词的预期质量分数。

回放分析:是模型,还是提示词?

实验的另一个核心目标在于,厘清图像复现性能的提升中,有多少源于更强大的模型,又有多少来自提示词的优化?

根据概念框架的表述,当模型从能力水平θ1升级至更高水平θ2时,其输出质量的总改进可表示为:

研究人员将这一变化分解为两部分:

1. 模型效应:将相同提示词应用于更优模型时,获得的性能提升;

2. 提示词效应:通过调整提示词以充分发挥更强大模型优势所带来的额外改进。

为实证评估这两个组成部分,研究人员对DALL-E 2和DALL-E 3(原词版)实验组参与者的提示词进行了额外分析。

具体方法是将实验过程中参与者提交的原始提示词,重新提交至其原分配模型和另一模型,并分别生成新图像。

· 分离模型效应

针对DALL-E 2参与者编写的提示词(x*(θ1,s)),团队同时在DALL-E 2和DALL-E 3模型上进行评估,分别获得Q[θ1s,x*(θ1,s)]和Q[θ2,s,x*(θ_1,s)]的实测值。

这一对比可分离出模型效应:即在固定提示词情况下,仅通过升级模型获得的输出质量提升。

· 比较提示效应

为了评估提示词效应,作者还比较了以下两组数据:

1. 在DALL-E 3上回放DALL-E 2提示词的质量(即Q[θ2,s,x*(θ1,s)]估计值)

2. DALL-E 3的参与者专门为模型编写的提示词在相同模型上的质量(即Q[θ2,s,x*(θ2,s)]估计值)

这一差异恰恰能反映,用户通过调整提示词,模型本身得到的额外改进。

那么,这项实验的具体结果如何?


DALL-E 3强大的生图能力
提示词解锁了一半

实验中,研究团队主要探讨了三大问题:

(i) 接入更强大的模型(DALL-E 3)是否能提升用户表现;

(ii) 用户在使用更强模型时如何改写或优化他们的提示词;

(iii) 整体性能提升中有多少应归因于模型改进,多少应归因于提示词的适应性调整。

模型升级,是核心

首先,团队验证了使用DALL-E 3的参与者,是否比使用DALL-E 2的参与者表现更优?

如下图1所示,汇总了所有发现。

A展示了三组代表性目标图像,每组都包含了从两种模型中抽取的三张图像。

中间行是,目标图像余弦相似度最接近全体参与者平均值的生成结果,上行(下行)则呈现比均值相似度高(低)约一个平均处理效应(ATE)的图像。

在10次必要提示尝试中,使用DALL-E 3的参与者生成图像与目标图像的余弦相似度平均高出0.0164。

这个提升相当于0.19个标准差,如下图1 B所示。

而且,这种优势在10次尝试中持续存在,因此不可否认,模型升级一定会比前代有着显著的性能提升。

而且,参与者的动态提示行为在两种模型间也存在显著差异:

图C表明,DALL-E 3使用者的提示文本平均比DALL-E 2组长24%,且该差距随尝试次数逐渐扩大。

他们更倾向于复用或优化先前提示,这表明当发现模型能处理复杂指令后,他们会采取更具开发性的策略。

此外词性分析证实,增加的词汇量提供的是实质性描述信息而非冗余内容:

名词和形容词(最具描述性的两类词性)占比在两种模型间基本一致(DALL-E 3组48% vs DALL-E 2组49%,p = 0.215)。

这说明了,提示文本的延长反映的是——语义信息的丰富化,而非无意义的冗长。

模型51%,提示词49%

研究人员观察到提示行为的差异表明,用户会主动适应所分配模型的能力。

DALL-E 3使用者的整体性能提升中,有多少源自模型技术能力的增强,又有多少归因于用户针对该能力重写提示?

为解答这一问题,研究人员采用前文所述的回放(replay)分析法,以实证分离这两种效应。

模型效应

将DALL-E 2参与者编写的原始提示,分别在DALL-E 2和DALL-E 3上评估性能。

结果显示,相同提示在DALL-E 3上运行时余弦相似度提升0.0084(p<10^-8),占两组总性能差异的51%。

提示效应

将DALL-E 2参与者的原始提示与DALL-E 3参与者编写的提示(均在DALL-E 3上评估)进行对比。

结果显示,该效应贡献了剩余48%的改进,对应余弦相似度提升0.0079(p=0.024)。

总处理效应

总处理效应为0.0164,关键的是,当DALL-E 3用户编写的提示应用于DALL-E 2时,性能较原始DALL-E 2提示无显著提升(Δ=0.0020;p=0.56)。

这种不对称性,印证了提示优化的效果依赖于模型执行复杂指令的能力边界。

图2 B通过单一目标图像直观呈现这些效应:

  • 上行展示DALL-E 2参与者的原始提示,在DALL-E 3上生成更高保真度的图像,证明固定提示下模型升级的效果;

  • 下行显示DALL-E 3参与者的提示在DALL-E 2上输出质量显著下降,凸显当模型能力不足时,提示优化的效果存在天花板。

这些发现研究人员的理论主张,提供了实证支持:

提示优化是一种动态互补策略——用户根据模型能力提升而主动调整行为,且这种调整对实际性能增益的贡献不可忽视。


技能异质性

如下表1呈现了「回归分析结果」,测试了模型效应、提示词效应以及总效应是否会在不同技能水平的参与者之间系统性地变化。

主要发现如下:

1. 总效应与表现十分位数的交互项呈负相关且统计显著(−0.000115,p = 0.0152)。

这表明模型改进缩小了高、低绩效用户之间的整体差距,这与概念框架中的命题1一致。

2. 模型效应与表现十分位数的交互项,同样呈负相关且统计显著(−0.000059,p=0.0210)。

这说明模型升级主要惠及低技能用户。这与命题2的理论预测相符,因为接近性能上限的高技能用户存在收益递减效应。

3. 并没有发现提示词适应的效益,在技能分布上存在显著差异(−0.000056,p=0.2444)。

此外,研究团队还评估了自动化提示词的效果。

结果发现,GPT-4经常添加无关细节或微妙改变参与者的原意,导致模型输出质量下降58%。

用简单的话来说,AI写的提示词曲解了意图,不如用户精心编制的提示词。

对此,Outbox.ai的创始人Connor Davis给出了建议,不要去过度自动化提示词,人还应该在其中发挥主动性。


作者介绍

Eaman Jahani

Eaman Jahani是马里兰大学商学院信息系统专业的助理教授。

他曾在UC伯克利统计系担任博士后研究员,还获得了MIT的社会工程系统与统计学双博士学位。

Benjamin S. Manning

Benjamin S. Manning目前是MIT斯隆管理学院IT组的四年级博士生。他曾获得MIT硕士学位和华盛顿大学学士学位。

他的研究围绕两个相辅相成的方向:(1) 利用AI系统进行社会科学发现;(2) 探索AI系统如何代表人类并按照人类指令行事。

Joe Zhang

Joe Zhang目前是斯坦福大学博士生,此前,曾获得了普林斯顿大学的学士学位。

个人的研究喜欢从人机交互到社会科学等多个学术领域汲取灵感,试图理解新兴的人机协作系统及其对商业和社会的影响。

参考资料:
https://arxiv.org/abs/2407.14333v5 
https://x.com/connordavis_ai/status/1957057335152836737


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652620792&amp;idx=1&amp;sn=a893146862e5060baf7ed8c900e15a66&amp;chksm=f02d508463ff536d188d463999cee9c01da03f8b54cfb055d9a752a9b8787d5bd1f18f381386&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/uFJd9fsMtd&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们