动态列表

  • 协和4+4的另一面:浙江范式用AI定义医疗未来!AI「智愈」时代来临
  • 睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升
  • 25位IT大佬亲述:AI「吃掉」程序员!码农黄金时代终结
  • i人如何在学术会议有效社交?滑铁卢大学教授Gautam Kamath亲授心得
  • 315 行代码构建编程助手,Go大佬揭开智能体的「神秘面纱」
  • 阿里云通义点金发布DianJin-R1金融领域推理大模型,32B模型荣膺榜首
  • CVPR 2025 | 如何稳定且高效地生成个性化的多人图像?ID-Patch带来新解法
  • 小米取消 SU7 Ultra 大马力限制 OTA;淘宝闪购上线,每天 2 个大红包;极客团队推《人生切割术》同款键盘
  • 1美元颠覆6000亿广告界,哥大辍学天才30天狂飙500万营收
  • 从游戏少女到AI女神!她用物理驯服AI,让飓风预测快1000倍
  • 只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%
  • 刚刚,ICML 2025录用结果公布!好评论文惨遭拒,审稿人敷衍引全网怒喷
  • Aero-1-Audio: LMMs-Lab发布1.5B音频语言模型,长音频转录直出,性能优异!
  • ICML 2025放榜!接收率26.9%,高分被拒,低分录用惹争议
  • LoRA中到底有多少参数冗余?新研究:砍掉95%都能保持高性能
  • 浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误
  • Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
  • 马斯克怒怼特斯拉换帅报道;苹果库克称关税成本暂不转嫁给消费者,但未来难说;游戏科学获五四青年奖章集体
  • 400万token新SOTA!英伟达UIUC联手:兼顾长短上下文顶尖性能
  • AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛斥
  • 北大出手,物理学院天才们教AI「做人」!PHYBench成大模型物理能力试金石
  • DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过
  • 被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作
  • 后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
  • ScienceOne正式发布:基于科学基础大模型的智能科研平台
  • 一个月 78 块的 AI 日历,治好了我的「万事开头难」
  • DeepSeek 发布 Prover-V2 模型;小米首个推理大模型开源;饿了么宣布超百亿补贴加入外卖战局
  • 2万亿巨兽来袭,小扎亮底牌! 首次回应Llama 4风暴,开源榜单背锅
  • 清华出手,挖走美国顶尖AI研究者!前DeepMind大佬被抄底,美国人才倒流中国
  • 刚刚,DeepSeek-Prover-V2-671B开源!
  • 发布 Qwen3,阿里云拉开新一轮开源模型竞赛的序幕
  • Video-XL-Pro:端侧3B模型长视频理解新sota!性能赶超7B巨头!
  • 解决200种复杂材料,10Å尺度模拟纳米晶体,哥大团队用4万个原子结构训练AI,登Nature子刊
  • 真·开源MCP平台来了!ACI.dev能一站直连600+工具,让你的智能体秒变全能王!
  • 刚刚!OpenAI回滚了最新版本的GPT-4o,因ChatGPT「过度谄媚」
  • 只花9美元,推理能力暴涨20%!小模型Tina震撼登场,成本缩减260倍
  • 上交大推出首个AI智能体协议全面综述:从碎片化到互联互通的智能体网络
  • CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP,大模型训练最高加速3.8倍
  • R1-Zero的无监督版本来了!SFT不再是必须,EMPO重新定义大模型推理微调
  • ICLR 2025 | 差分注意力机制爆火!DIFF Transformer击穿长文本建模天花板
  • 北邮-腾讯联合提出多任务提示调优推荐框架MPT-Rec,实现效率性能双突破
  • 北京内推 | 中电信人工智能公司招聘多模态大模型算法实习生
  • 沃尔玛通知中国供应商恢复供货;Meta 推独立 AI 助手,融合社交元素;因「过于奉承」,OpenAI 撤回更新
  • AI包办79%代码,程序员饭碗不保!前端开发要凉,人类只配改Bug?
  • 细思极恐,AI操控舆论达人类6倍!卧底4月无人识破,Reddit集体沦陷
  • 大模型时代,百度智能云迎来最大机会
  • 我用Qwen3实测了9道经典难题,再聪明的AI也有犯傻的时候
  • 「拍照问夸克」,从「Know-What」到「Get it Done」的跃迁
  • 终端云端三连发!无问芯穹开源大模型推理加速神器,加码构建新一代端、云推理系统
  • 小红书,不止看车,更看生活
  • 阿里千问 3 登顶全球最强开源模型,性能超越 DeepSeek-R1、OpenAI-o1
  • GPU无上限+AGI顶尖课题!蚂蚁星「Plan A」全球招募下一代AI领航者
  • 模仿or探索?LUFFY:我全都要!巧妙融合外部指导,RL推理不再死板
  • 33,000美元奖金池!Meta CRAG-MM挑战赛开启,多模态RAG巅峰对决
  • 博士申请 | 香港中文大学MMLab岳翔宇老师招收人工智能全奖博士/RA/实习生
  • ChatGPT的尽头也是「带货」:3、2、1,上链接
  • ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%
  • 淘天集团“T-Star计划”首次向实习生开放,提供转正Offer
  • 猛击OpenAI o1、DeepSeek-R1!刚刚,阿里Qwen3登顶全球开源模型王座,深夜爆火
  • 语音领域ISCA Fellow 2025公布:上海交大俞凯、台大李宏毅等三位华人入选
  • 2025 Meta CRAG-MM Challenge 赛题发布
  • 上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025
  • 蚂蚁密算福州发布密态可信数据空间:高性能、低成本和全链路安全
  • 海螺+可灵、上线两个多月、5万+围观,零破绽,这支AI广告藏得太深了
  • 阿里开源新一代通义千问模型 Qwen3;传刘强东曾和王兴共聚晚餐;马斯克:5 年内机器人将超越外科医生 | 极客早知道
  • AI 2027研究揭秘美国算力真相!中国全球AI专利Top1,但美国或以算力取胜
  • 华人博士用ChatGPT治病,比医生靠谱?OpenAI联创点赞
  • 100年企业知识超10万文件,「内网版ChatGPT」血洗最卷行业!全员70%和AI共事
  • AGI幻灭,LeCun观点得证?哈佛研究实锤AI不懂因果,世界模型神话破灭
  • 52页PPT,谷歌Gemini预训练负责人首次揭秘!扩展定律最优解
  • Apple Watch 10 周年,哪些「环」直到现在也没「合上」?
  • 从「黑科技」到「量产」,爱奇艺的虚拟制作进化论
  • 打造「无所不能、无处不在」的 AI,百度为何要从「操作系统」做起?
  • 北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?
  • ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
  • ICLR 2025 | 大模型是否能做到有效“遗忘”?从梯度视角重新审视LLM反学习方法
  • ICLR 2025 | 基于多任务学习的回归范式实现更快的灵活分子对接
  • 智象未来x商汤大装置:全栈赋能全球首个开放使用视频生成DiT模型
  • 两篇Nature Medicine,DeepSeek、GPT-4o等LLM在医学推理、临床决策中的应用评估
  • AI+量子计算:港科大等提出突破性低温存内计算方案
  • 除了Ilya、Karpathy,离职OpenAI的大牛们,竟然创立了这么多公司
  • 字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
  • 首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路
  • 模型压缩到70%,还能保持100%准确率,无损压缩框架DFloat11来了
  • 重磅发布 | 复旦《大规模语言模型:从理论到实践(第2版)》全新升级,聚焦AI前沿
  • AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实
  • 受关税影响,美电商商品价格普涨;京东外卖扩招 10 万旗手;苹果 AI 智能眼镜有望 2027 年推出|极客早知道
  • 一行代码不用写,AI看论文自己「生」出代码库!科研神器再+1
  • OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者
  • 深度学习基础架构革新?通过梯度近似寻找Normalization的替代品
  • ICLR 2025 | 计算开销减半!Dynamic-LLaVA刷新多模态大模型推理加速上限
  • 迈向长上下文视频生成!FAR重塑下一帧预测范式,短视频与长视频双双登顶SOTA
  • 英伟达送钱送算力!数据过滤挑战赛开启:白嫖A100,冲击1万美金大奖!
  • 字节启动Top Seed大模型顶尖人才计划2026届校招
  • 纳米AI放大招!MCP万能工具箱,人人都能用上超级智能体
  • Devin开发团队开源DeepWiki,助你快速读懂所有GitHub代码库
  • ICLR 2025 | 无需训练加速20倍,清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM
  • 基于奖励驱动和自组织演化机制,全新框架ReSo重塑复杂推理任务中的智能协作
  • 阶跃星辰发布图像编辑模型 Step1X-Edit,性能开源最佳
  • 百度Create AI开发者大会:李彦宏发布两大新模型、多款热门AI应用,帮助开发者全面拥抱MCP
  • 清华系智谱×生数达成战略合作,专注大模型联合创新
  • 九章云极DataCanvas公司双论文入选全球顶会ICLR,推动AI解释性与动态因果推理核心进展​
  • 在介观尺度「找不同」?ML预测材料失效,使材料设计更安全
  • 阿里AI旗舰应用夸克发布全新“AI相机” 提升AI超级框多模态能力
  • 传马斯克 xAI 正寻求 200 亿美元融资;Waymo 未来或向个人销售自动驾驶汽车;贾跃亭回应「下周回国」梗

全球首个AI科学家天团出道!007做实验碾压人类博士,生化环材圈巨震



  新智元报道  

编辑:Aeneas KingHZ
【新智元导读】世界首个公开可用AI科学家天团,刚刚组团出道!FutureHouse发布了四个AI科学家Agent,科研能力直接超越o3,文献搜索已经超过人类博士。

就在刚刚,世界上首个公开可用的AI科学家登场了!

前谷歌CEO Eric Schmidt投资的一家非营利组织FutureHouse,官宣发布四个超人类的AI科学家智能体。

通用智能体:Crow(乌鸦)  

自动化文献综述智能体:Falcon(猎鹰)  

调研智能体:Owl(猫头鹰)  

实验智能体:Phoenix(凤凰)

这些智能体都是专门为科学研究而开发。

Crow、Falcon和Owl通过了严格的基准测试,在搜索精度和准确性上已经超越了目前顶级搜索模型,比如o3-mini,GPT-4.5,Claude-3.7。

LitQA基准测试精度(正确答案 / 已回答问题)和准确率(正确答案 / 所有问题)比较

FutureHouse还通过实验,验证了它们在直接文献搜索任务中,检索和综合能力比博士水平的研究人员具有更高的精度。

在问答、文章总结和矛盾检测这三个任务中,PaperQA2与人类博士的性能对比

在未来一两年内,我们将见证:今天科学家所做的大部分桌面工作,都会通过这些AI科学家的帮助而加速!


完胜人类的AI科学家

FutureHouse董事兼CEO Sam Rodriques表示:我们的AI科学家智能体,执行起科学任务来已经完胜人类!

通过把它们串联起来,我们已经很快有了全新的生物学发现。

这次FutureHouse发布的AI科学家,跟以往那些AI科学家有什么不同呢?

这主要就体现在,Crow、Falcon和Owl可以访问大量完整的科学文本

这就意味着,你可以向它们提出关于实验方案和研究局限性的更详细的问题。

而一般的网络搜索智能体,通常只能访问摘要,这就会错过这些问题。

而且,它们还能使用各种因素来区分来源质量,确保它们不会依赖低质量的论文,或者是流行的科学来源。

最后还有一点,也是至关重要的一点,就是FutureHouse会为用户提供一个API,允许研究者将这些智能体直接集成到他们的工作流中。

网友热评:为我量身打造

已经有网友摩拳擦掌,表示自己已经在想象使用起这个AI科学家的样子了。

有人表示,自己如今已经63岁了,有过12年的学界经验,和25年的私人诊所经验,感觉这些AI科学家非常适合自己。

当然,也有人提出疑问:这些产品使用的数据经过允许了吗?

诚然,目前这些智能体还不能自主完成大多数的科学研究。

不过我们已经可以用它们来生成和评估新的假设,规划新的实验,速度还比以前快很多。

另外,Future House内部还有专门用于数据分析、假设生成、蛋白质工程等方面的智能体,未来几个月内即将上线。


人类科研效率在下降,该AI上场了!

所以,AI科学家具体是怎么工作的?

FutureHouse的三位科学家,为我们提供了详尽的解答。

据他们介绍,FutureHouse的平台,是从科学第一的角度构建的,而不仅仅是为了吸引尽可能多的用户。

这三位科学家,本身对于科学就有着十分浓厚的兴趣。

比如左边的Michaela,在过去十年中,一直对控制人类细胞基因调控的分子机制十分好奇;中间的Mike是一位计算材料科学博士。

右边的Andrew表示,当他们共同创立未来之家时,他们注意到很多生产力和科学都在下降——每年人类发表的论文都越来越多,但突破却越来越少。

与此同时,AI却已经进化到了可以真正加速科学发展的程度。

因此,他们希望能让AI科学家做到自动化科研的全过程,如搜索文献、生成假设和进行分析。

其中,Crow非常适合文献检索问题,尤其是需要使用开放目标等数据源的问题提供简洁答案的时候。

Falcon是一个更深度的搜索工具,会考虑更多的来源,会在回答中为我们提供长篇报告。

Owl则专注于先例搜索,如果你好奇某项科研此前是否已经被做过,它的用武之地就来了。而且,它非常擅长梳理出某研究和过去研究的细微差别。

Phoenix则是一名化学药剂师,比其他科学家显得更定制化,更关注化学问题。


从PCOS开始,找到值得研究的新药

比如Michaela表示,自己的朋友最近表示自己有多囊卵巢综合征(PCOS),却很难找到一种非激素的治疗方法。

Michaela就实测了一番,是否能用这些AI科学家从零知识获得明确的可验证假设。

首先,她去问Falcon:请对PCOS进行全面解释。然后,AI科学家就开始工作了,并且我们可以看到全程的推理过程。

可以看到,Falcon创建了自己的搜索词,去搜寻已发表的论文,这一切都是它自行决定的。

更特别的是,跟主流的Agent不同,FutureHouse的AI科学家可以访问科学文献的全文。引用次数、引用图表、来自哪些期刊,都一清二楚。

在下一步,它抽出了其中的19份论文,同时还纳入了治疗PCOS的临床实验信息。

随后,就发生了一个非常密集的推理过程,Falcon会找到与所提问题最相关的背景证据。在整个系统中,这种信息漏斗的功能极其强大。

几位科学家表示,这个AI是目前该领域性能最强的信息提取系统之一。

下一步,就该Crow出场了。它被问到一个相当具体的问题:在基因组关联研究中,哪些关键基因跟PCOS相关?是否有人做过更清晰的筛选?

果然,Crow发现了此前的研究:已经有人在一项功能基因组学研究中, 将特定基因表达的增加,与细胞培养中睾酮表达的增加联系起来。

但这是为什么呢?AI科学家也能找到答案。

就这样,我们从对PCOS一无所知的小白,一下子掌握了决定该领域的一个关键差距,本来这会耗费我们大量时间去阅读资料、与专家交谈的,现在全都省去了。

甚至我们还可以点击链接,看到实际的推理轨迹:AI会解释为什么选择这项来源。

对于科学家而言,AI科学家的辅助无疑意义重大。

因为在生物学或药物设计领域拥有丰富经验的研究者,并不会成为工程师,对于诸如抓取论文、设置分布式数据库、速率限制这类事都并不擅长。

而这,就是FutureHouse平台诞生的意义。

那如何在提出假设和检验假设这两方面取得进展呢?这就需要Phoenix出场了。

我们可以向它提问,让它给出三种可以治疗由DENND1A过度表达引起的疾病的新型化合物。(这是基于此前AI科学家给出的调研结果)

因为在这个阶段,我们需要找到能治疗PCOS的药物。

我们可以从与蛋白质结合的分子开始,确保它更易溶解,不会进入肝脏或肾脏,以及没有获得过专利。

在提问中,我们了解到,目前不存在已知的针对该基因的结合剂。这就提供了一个很好的线索,甚至值得投入资金来进行药物研发。

最后,AI科学家给出了一份关于不同候选分子的报告,列出了它们已知的结合物,以及为什么可能与调节DENND1A的表达有关。

这样,它就给出了下一步研究的起点,我们可以直接去实验室中验证了。


1年造出AI科学家

FutureHouse的科学总监/联合创始人Andrew White,在X上回顾了过去一年的研发历程。

2024年6月,FutureHouse发布了Lab-Bench基准测试。

2024年9月,FutureHous成功开发了PaperQA2智能体。

PaperQA2示意图:与传统的RAG不同,在PaperQA2中LLM决定将哪些工具应用于查询。

2024年10月,他们编写了17,000篇关于人类编码基因的维基百科文章,验证了AI科学家的可行性。

2024年12月,他们利用新的框架和训练方法,在多个任务上了训练智能体——在分子克隆和文献研究方面超过生物学专家20多个准确率点。

昨天,他们隆重发布了FutureHouse平台。


独具匠心的智能体,
真正改变科研

与传统智能体相比,FutureHouse智能体的优势非常独特:

它们不仅能够访问海量高质量的免费论文和专业科学工具,而且还能从专业的论文数据库中精准搜索信息

它们还能模仿研究人员,采用多种方法评估信息来源的质量

而且这些智能体的推理过程完全透明,对每个信息来源都进行了多阶段的深入分析。

更重要的是,用户可以清晰地查看整个推理过程,了解智能体得出结论的每一步依据

此外,FutureHouse平台具备良好的扩展性

科学家个人往往难以维护自己的AI智能体部署,因此FutureHouse不仅提供了网页端接口,还开放了API,便于研究人员将其集成进实际工作流中。

通过大规模整合和链接这些智能体,科学家能够大幅提升科学发现的速度与效率。

已知的具体应用场景

这个平台尤其擅长应对以下两类问题:

需要详尽全文文献分析的研究课题,

  

或需要运用专业化学工具的探索任务。

具体应用场景包括:

挖掘疾病路径中的未知机制:用户可利用Falcon获取背景知识,Crow挖掘关键基因关联,Owl定位研究空白。

这些操作只要几分钟就能完成,而传统的文献调研要花费数周时间。

系统梳理文献中的矛盾:用户可利用Falcon分析数百篇论文中争议性话题的矛盾证据,精准指出需要进一步实验去澄清的争议点。

深入剖析实验方法:由于智能体可以访问计划全部的科学论文,用户可详细询问实验方法或研究局限性,挖掘摘要中难以察觉的关键细节。

通过API定制研究流程:研究团队利用API构建软件系统,实时监控最新论文,或大规模搜索文献,为筛选实验结果提供全面的背景知识支持。

寻找目标蛋白的结合候选物:科学家可指示Phoenix基于现有数据,筛选结合目标蛋白的候选物,同时满足溶解度、官能团或新颖性等复杂要求。

探索化学知识:Phoenix能判断化合物的新颖性、估算成本、预测化学反应结果,甚至比较直接购买与自行合成化学品的成本。

参考资料:
https://x.com/andrewwhite01/status/1917964546880286802
https://x.com/SGRodriques/status/1917960862071152811
https://www.futurehouse.org/research-announcements/launching-futurehouse-platform-ai-agents
https://techcrunch.com/2025/05/01/futurehouse-releases-ai-tools-it-claims-can-accelerate-science/

图片


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652591181&amp;idx=1&amp;sn=68233f33fb4b4b5a193c266de7807e30&amp;chksm=f006665fe706c8603df1b4412e124984fa8b0d87f5d69d05e348addc728f1529dab9d8824782&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/VXG59CgrNJ&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们