动态列表

亚马逊CEO全员信曝光，硅谷AI裁员潮已至！年薪50万湾区HR被算法淘汰
港科广等发布首个医学世界模型！精准模拟肿瘤演化，规划治疗方案
美7000万人或被取代，Agent光速卷入职场！北大校友、杨笛一新作
谢赛宁团队新基准让LLM集体自闭，DeepSeek R1、Gemini 2.5 Pro都是零分
清华SageAttention3，FP4量化5倍加速！且首次支持8比特训练
ICML 2025 | 分子之心、港理工首创AI酶设计新方法，突破自然进化极限
冠军队独享200万，进决赛就有直通offer，腾讯广告算法大赛报名开启
统一框架下的具身多模态推理：自变量机器人让AI放下海德格尔的锤子
信息过载时代，如何真正「懂」LLM？从MIT分享的50个面试题开始
10×加速！DCM显著提升视频扩散模型推理效率！HunyuanVideo13B推理时间从1500秒缩短至120秒！
香农极限转化为计算优势，射频光子深度学习处理器MAFT-ONN比传统方法快数百倍
成功率提高3倍，David Baker等通过可设计性偏好优化蛋白质序列设计
2025 清华大学 x 字节跳动程序设计竞赛训练营报名启动
MiniMax-M1 登场，MiniMax 再次证明自己是一家模型驱动的 AI 公司
刚刚，Gemini 2.5系列模型更新，最新轻量版Flash-Lite竟能实时编写操作系统
通向世界模型关键一步：EX-4D来了，实现单目视频到自由视角生成
马斯克：没嗑药，公布药检自证清白；京东：一线城市骑手月入 1万 3；谷歌广告讽刺 iOS 26 跟风安卓｜极客早知道
沉迷贪吃蛇，7B小模型竟变身「数学天才」！几何推理碾压GPT-4o
形式化证明迈向多模态，MLLM正确率仅4%！港科大等推出全新基准
谷歌Veo 3魔性切水果刷屏全网！逼真视频狂吸10万粉，全体网友颅内高潮
3D高斯泼溅，可输入视图量高达500！推理速度提升3倍，内存少80%
AI子弹已上膛！OpenAI斩获美国防部2亿美元大单，密谋向微软「开枪」
逐个token太慢！大模型原生并行出token，CMU、英伟达新作Multiverse
想知道你的LLM API被过度收费了吗？隐藏的Tokens终于可以被审计了
23 万的小鹏G7，「硬刚」Model Y和小米YU7
豆包电脑版上线AI播客功能，支持一键生成播客
准确率是DeepSeek-R1两倍以上，前谷歌CEO押注的初创公司开源240亿参数科学推理模型
Nature子刊 | 显著提升生物医学中蛋白质递送能力，生成式AI扩展线粒体靶向工具包
读博士，去哪找那么多创新点？水水得了...
ICML 2025 | 北大KA-Prompt首创提示知识对齐范式，跨域推理不再“鸡同鸭讲”
欧洲团队开源「地球AI大脑」！EarthMind突破遥感多模态统一理解壁垒
北京内推 | 联想研究院人工智能实验室招聘多模态算法实习生
首个转型AI公司的新势力，在全球AI顶会展示下一代自动驾驶模型
从扭秧歌到跑半马：机器人离「iPhone时刻」还有多远？
首个全面梳理语音大模型发展脉络的权威综述，入选ACL 2025主会
同一天开源新模型，一推理一编程，MiniMax和月之暗面开卷了
突破多智能体系统边界，开源方案OWL超越OpenAI Deep Research，获17k star
从「万元咨询」到夸克免费 AI：一场高考志愿的「信息平权」之战
CVPR 2025 | 零开销缓解物体幻觉：基于零空间投影的多模态大模型物体幻觉消除方法
刚刚，LMArena最新模型榜单出炉！DeepSeek-R1网页编程能力赶超了Claude Opus 4
搜索智能体RAG落地不佳？UIUC开源s3，仅需2.4k样本，训练快效果好
华为发「天才少年」课题，涉 AI、汽车；雷军：小米 YU7 提前发布；川普推「MAGA」土豪金手机，3585 元起
CVPR史上首次！中国车厂主讲AI大模型，自动驾驶也玩Scaling Law?
刚刚，谷歌AI路线图曝光：竟要抛弃注意力机制？Transformer有致命缺陷！
亚马逊码农噩梦来袭！沦落「仓库工人」，每天流水线分拣「AI代码」
特朗普「全政府AI计划」竟在GitHub泄密！或于7月4日「独立日」上线
目标检测之“看见角度”：YOLO11 与定向边界框（OBB）检测
大力出奇迹失灵了？ModelSwitch跳出采样黑洞，改写大模型推理范式
ACL 2025 | 数据多不如风格齐？SCAR精选<1%样本，指令微调效果飙升
从“比像素”到“懂语义”！Video-Bench实现视频质量精准打分，突破73%人类认同率
北京内推 | 小米汽车自动驾驶与机器人部招聘感知算法实习生
「人类飞机上吵架看呆袋鼠」刷屏全网，7000万人被AI耍了
SFT+RL双管齐下：ReasonGen-R1如何破解文生图「指令不遵」难题？
Nature子刊，北大团队使用多视图GNN进行基于生态位的细胞间通信研究
九章云极发布九章智算云Alaya NeW Cloud 2.0，开创Serverless+RL技术趋势
AI进化三年，产业落地真拐点可能就在这场全球顶尖金融智能赛事里
初赛报名截止倒计时！75万奖池+心动Offer，启元实验室重磅赛事等你来战！
高考数学斩获139分！小米7B模型比肩Qwen3-235B、OpenAI o3
如何选择最佳多模态大模型压缩方案？哈工大、度小满开源EFFIVLM-BENCH基准测试框架
Nature子刊，中国科大团队提出迁移学习指导的圆偏振磷光材料设计
复旦团队让线粒体自噬「可视化」，AI-FM揪出抗阿尔茨海默病潜力药
通过对话即可执行DNA、RNA和蛋白质任务，InstaDeep提出多模态智能体ChatNT
大模型能否读懂真实病历？哈佛医学院发布BRIDGE大规模多语言评测基准
Muon作者仅用一篇博客，就被OpenAI看中了
ACL 2025｜为什么你设计的 Prompt 会成功？新理论揭示大模型 Prompt 设计的奥秘与效能
罗永浩数字人开播，GMV超 5500 万；泡泡玛特首家珠宝店正式开门；特斯拉 Robotaxi 真车曝光
刚刚！陶哲轩3小时对话流出：AI抢攻菲尔兹奖倒计时
《人类简史》作者怒怼硅谷：智能≠真理，AI正在走偏！
12年博士研究，AI两天爆肝完成！科研效率狂飙3000倍，惊动学术圈
硅谷精英集体参军！代号「201分队」，Meta、OpenAI首席技术官入伍
刚获得一亿美元融资的地瓜机器人，挑战让智能机器人变得更便宜
放弃博士学位加入OpenAI，他要为ChatGPT和AGI引入记忆与人格
机器人也能边想边做！清华团队OneTwoVLA让机器人煮火锅、炒菜、调酒样样精通
复旦大学/上海创智学院邱锡鹏：Context Scaling，通往AGI的下一幕
谢赛宁敲响学界警钟！AI研究可能陷入一场注定失败的有限游戏
AI记忆伪装被戳穿！GPT、DeepSeek等17款主流大模型根本记不住数字
CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」，精准揪出犯错元凶
首个统一的图像与视频AIGC可解释性检测框架，多榜单SOTA性能
特朗普或推出以其名字命名的手机品牌；百度启动最大规模 AI 人才招聘；《鱿鱼游戏》第三季预告发布｜极客早知道
小扎豪掷143亿美元赌新「王」！28岁华人亿万富翁入职Meta，与谷歌决裂
模型遗忘不代表记忆抹除！首次系统发现「可逆性遗忘」背后规律
谢赛宁开炮，现场打脸CVPR评审！Sora开山之作DiT被拒，怒斥AI学术圈畸形
和AI聊太深？他们离婚、跳楼、自杀了！ChatGPT精神病正在爆发
LLM已能自我更新权重，自适应、知识整合能力大幅提升，AI醒了？
多智能体在「燃烧」Token！Anthropic公开发现的一切
苹果《思考的错觉》再挨批，Claude与人类共著论文指出其三大关键缺陷
单卡4090也能高质量视频编辑！西湖AGI Lab无训练框架FlowDirector来了
ICCV 2025 MARS2 Workshop 多模态推理竞赛启动
消息称腾讯未考虑收购 Nexon；追觅否认「断指计划」；李国庆与俞渝就财产分割达成最终和解
光场显微飞跃AI时代！清华等首提SeReNet：毫秒级高分辨光场三维重建
苏妈联手OpenAI，AMD发布3nm怪兽MI355X，性能碾压英伟达B200！
何恺明评审，谢赛宁获奖！牛津华人博士生拿下CVPR 2025最佳论文
刚刚，CVPR 2025奖项出炉：牛津&Meta博士生王建元获最佳论文，谢赛宁摘年轻研究者奖
ICML 2025 | 千倍长度泛化！蚂蚁新注意力机制GCA实现16M长上下文精准理解
字节跳动技术副总裁洪定坤：TRAE 想做 AI Development
「倒计时3天」2025 WAIC云帆奖全球征集｜共青年之智，铸AGI未来
2025谷歌研究学者计划名单：吴佳俊、Mamba作者Albert Gu、Tri Dao等获奖
一粒「扣子」，开启了Agent的全生命周期进化
聊透 Agent，它是「同事」还是「工具」，创业机会和价值究竟是什么？
零训练即可实现自我演化！首个基于科学智能体架构的AI疾病生物学家发布
腾讯2026青云计划启动，百余项技术课题支持青年人才挑大梁
AI研究人员如何节约能源？通过反向计算
提前15天预测50种可能情景，谷歌DeepMind凭借新模型彻底改变了台风预报
腾讯打出「AI岗位薪酬不限」的底气来自哪？
1200行代码逆袭！DeepSeek工程师开源轻量级vLLM，吞吐量逼近原版
刚刚，Scale AI CEO Alexandr Wang正式官宣：Meta重金投资并挖走了我
统一20+多智能体方法，MASLab震撼发布
CVPR 2025 论文推荐：VGGT，快速 3D 重建新范式
科大讯飞最新发布！打造下一代智能交互新范式
AGI真方向？谷歌证明：智能体在自研世界模型，世界模型is all You Need
CVPR 2025 Highlight｜北大联手智元发布首个基于说明书的家电操作评测基准
波音 787 在印度发生首次坠毁事故；哪吒汽车通知员工居家办公；阿里发布高考志愿大模型｜极客早知道
DeepMind首个猜想库开源，获陶哲轩力挺！
1万块GPU砸向欧洲！老黄怒怼AI末日论：全球首个工业AI云来了
何恺明改进了谢赛宁的REPA：极大简化但性能依旧强悍
CVPR 2025 多模态大一统：斯坦福 x 复旦提出符号主义建模生成式任务
精度达原子级，基于深度学习的动态蛋白质设计，登Science
英伟达打造全球首个工业AI云，配万块GPU，物理AI机器人集群已启动
字节自研AI IDE “TRAE”，月活用户已超百万
从高考到实战，豆包大模型交卷了
通义实验室最新成果WebDancer：开启自主智能Deep Research的新时代
256块NPU训成8B视频模型、超越Sora等一众闭源！抖音内容技术团队开源ContentV
拆解火山引擎后，我看到了字节跳动的「变奏」
ACL 2025 | 让大模型听懂育种的语言，科学家提出首个种子科学多任务评测基准SeedBench
ICML 2025 | Agentic时代唤醒NAS"第二春"！智能体超网动态组队，推理成本暴降55%
Image Caption复兴宣言！南大港大CapArena重塑「详细图像描述」评测体系
视频理解“隐秘的角落”：多任务视频文本理解评测新基准VidText发布
博士申请 | 上海交通大学人工智能学院刘松桦老师招收视觉生成方向博士/硕士/实习生
SIGGRAPH 2025奖项出炉：上科大、厦大最佳论文
2D图像作中介，零训练实现3D场景生成SOTA：英伟达&康奈尔提出文本驱动新流程
刚刚，LeCun亲自出镜，Meta推出新世界模型！
银河通用X清华大学发布业内首款开源人形机器人全身遥操系统OpenWBT，支持多机型、跨虚实，小时内可轻松部署
CVPR 2025 | 多模态统一学习新范式来了，数据、模型、代码全部开源
马斯克道歉，特朗普回应；阿里离职员工发万字长文，马云回应；华为发布 Pura 80 系列，余承东称对得起那四个字

Nature警告：AI「数据饥渴症」引爆学术宕机潮！90%知识库濒临崩盘

2025-06-16未知作者来源

新智元报道

编辑：犀牛

【新智元导读】学术网站本是知识的宝库，却因AI爬虫的疯狂掠夺而陷入瘫痪。从DiscoverLife到BMJ，数百万次异常访问让服务器不堪重负，威胁着开放获取的科研命脉。这场「数字蝗灾」究竟因何而起？学术界又该如何应对？

假如一个平日里宁静的图书馆，突然涌入一大群不速之客，他们不阅览、不沉思，只是一味地疯狂复印每一本书的每一页。

这喧嚣吵闹的场面，怎能不打扰那些正埋首书海、专心阅读的人们呢？

如今，学术网站正遭遇类似的「数字入侵」。

就在近日，Nature发表文章详细揭露了这些行为。

文章地址：https://www.nature.com/articles/d41586-025-01661-4

数字「蝗灾」席卷学术界

DiscoverLife是一个在线图像库，拥有近300万张珍贵的物种照片，是很多生物学家的科研生命线。

然而，从今年2月开始，该网站每天都被数百万次异常访问淹没，页面加载缓慢，甚至彻底瘫痪。

当你试图打开一张稀有昆虫的图片时，却只能面对「服务器繁忙」的提示。

罪魁祸首是谁？

不是黑客，也不是病毒，而是一群悄无声息的AI爬虫，正在疯狂「啃食」数据，为生成式人工智能「喂食」。

这些大量抓取数据的爬虫，正困扰学术出版商与研究人员，尤其是运营期刊论文、数据库和其他资源网站的人。

「现在的情况就像是西部大荒野，」PSI公司的首席执行官Andrew Pitts说。该公司为学术交流界提供经过验证的全球IP地址库，位于英国牛津。

「最大的问题是访问量实在是太大了，给系统带来了巨大的压力。这不仅耗费资金，还干扰了真正的用户。」

那些运营受到影响的网站正在想方设法阻止这些爬虫机器人，减少他们造成的干扰。

但这绝非易事。特别是对资源有限的小机构来说。

「如果这些问题得不到解决，一些小型机构可能会彻底消失。」德国斯图加特国家自然历史博物馆的动物学家Michael Orr表示。

爬虫程序泛滥

互联网爬虫并非新生事物。

几十年来，谷歌等搜索引擎的爬虫一直在扫描网页，助力信息检索。

然而，生成式AI的崛起引发了「坏爬虫」的洪流。

今年，位于伦敦的医学期刊出版商BMJ发现，其网站上的爬虫机器人流量已经超过了真实用户的流量。

BMJ的首席技术官Ian Mulvany表示，这些机器人激进的行为导致服务器超载，正常客户的服务也因此中断。

不只BMJ，Highwire Press（专攻学术出版的互联网托管服务提供商）的服务交付总监Jes Kainth直言：「我们观察到坏爬虫的流量激增，这已成为严重的问题。」

开放获取知识库联合会（COAR）在四月份的报告中指出，在其调查的66个成员中，超过90%的成员表示曾遭遇AI爬虫抓取内容。

其中大约三分之二的成员因此经历了服务中断。

COAR执行主任Kathleen Shearer表示：「我们的知识库是开放获取的，所以某种程度上我们欢迎内容被再利用。但有些爬虫过于激进，正造成宕机等严重运营问题。」

为何盯上学术网站？

数据是新石油。

这句话在AI时代被演绎得淋漓尽致。

LLM、图像生成器这些AI工具依赖海量高质量数据进行训练，而学术网站（期刊论文、数据库、开放知识库）成了「金矿」。

因为这些网站内容权威、新鲜，且往往结构化良好。

正如网络服务提供商Cloudflare副总裁Will Allen所言：「如果你的内容新颖或相关度高，对构建AI聊天机器人的开发者来说就是无价之宝。」

这些爬虫往往通过匿名IP地址行动，绕过付费墙，甚至无视网站设置的robots.txt文件（用于规范爬虫行为）。

Wiley出版社的高级副总裁Josh Jarrett表示，他们发现爬虫试图获取订阅内容。4月，Wiley还发布声明，强调未经授权的非法爬取不可接受。

但精明的坏爬虫非常擅长绕过付费墙。

危机下的挣扎

面对爬虫洪流，学术网站在奋力自救。

但在许多情况下，限制机器人访问而不影响正常用户十分的困难。

一种常见的方法是集成一个文件，告知机器人哪些行为被允许或禁止。

但坏爬虫往往无视规则。

另一种方法是全面封禁所有爬虫类似的行为，但这种一刀切的行为又可能误伤合法用户。

Mulvany解释说，学者常通过代理服务器访问期刊（这意味着大量请求可能来自同一个IP地址），这种访问方式很像是机器人行为。

「我们得找到一个平衡点，既要保护网站不被流量激增搞崩，又不能影响用户正常访问这些资源。」Mulvany表示。

「这事真挺烦人的，得花不少精力来减少这些风险。」

这些网站也可以屏蔽掉特定的爬虫程序，但需要首先区分善意和恶意爬虫。

Cloudflare和PSI公司正努力识别坏爬虫，但新型AI爬虫层出不穷，难以完全遏制。

「我们急需国际上达成关于AI公平使用和尊重这类资源的协议。」Orr表示。

「否则，长远来看，这些工具将找不到可用的训练资源。」

参考资料：

https://www.nature.com/articles/d41586-025-01661-4

https://coar-repositories.org/news-updates/open-repositories-are-being-profoundly-impacted-by-ai-bots-and-other-crawlers-results-of-a-coar-survey/

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652602138&amp;idx=2&amp;sn=a3b9625b75f236fe18ed9349d1314e86&amp;chksm=f08ee994b14f0e59ef66cb094f9698d47e24da429b65d54a063d60077d9937b257bd10fc54a3&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/Xu9JE3eFUC&amp;maxage=1y"  width="1px"></div></div></body></html>

动态列表

Nature警告：AI「数据饥渴症」引爆学术宕机潮！90%知识库濒临崩盘

新智元报道

【新智元导读】学术网站本是知识的宝库，却因AI爬虫的疯狂掠夺而陷入瘫痪。从DiscoverLife到BMJ，数百万次异常访问让服务器不堪重负，威胁着开放获取的科研命脉。这场「数字蝗灾」究竟因何而起？学术界又该如何应对？

类别

资源

联系我们