动态列表

  • 亚马逊CEO全员信曝光,硅谷AI裁员潮已至!年薪50万湾区HR被算法淘汰
  • 港科广等发布首个医学世界模型!精准模拟肿瘤演化,规划治疗方案
  • 美7000万人或被取代,Agent光速卷入职场!北大校友、杨笛一新作
  • 谢赛宁团队新基准让LLM集体自闭,DeepSeek R1、Gemini 2.5 Pro都是零分
  • 清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练
  • ICML 2025 | 分子之心、港理工首创AI酶设计新方法,突破自然进化极限
  • 冠军队独享200万,进决赛就有直通offer,腾讯广告算法大赛报名开启
  • 统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子
  • 信息过载时代,如何真正「懂」LLM?从MIT分享的50个面试题开始
  • 10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!
  • 香农极限转化为计算优势,射频光子深度学习处理器MAFT-ONN比传统方法快数百倍
  • 成功率提高3倍,David Baker等通过可设计性偏好优化蛋白质序列设计
  • 2025 清华大学 x 字节跳动程序设计竞赛训练营报名启动
  • MiniMax-M1 登场,MiniMax 再次证明自己是一家模型驱动的 AI 公司
  • 刚刚,Gemini 2.5系列模型更新,最新轻量版Flash-Lite竟能实时编写操作系统
  • 通向世界模型关键一步:EX-4D来了,实现单目视频到自由视角生成
  • 马斯克:没嗑药,公布药检自证清白;京东:一线城市骑手月入 1万 3;谷歌广告讽刺 iOS 26 跟风安卓|极客早知道
  • 沉迷贪吃蛇,7B小模型竟变身「数学天才」!几何推理碾压GPT-4o
  • 形式化证明迈向多模态,MLLM正确率仅4%!港科大等推出全新基准
  • 谷歌Veo 3魔性切水果刷屏全网!逼真视频狂吸10万粉,全体网友颅内高潮
  • 3D高斯泼溅,可输入视图量高达500!推理速度提升3倍,内存少80%
  • AI子弹已上膛!OpenAI斩获美国防部2亿美元大单,密谋向微软「开枪」
  • 逐个token太慢!大模型原生并行出token,CMU、英伟达新作Multiverse
  • 想知道你的LLM API被过度收费了吗?隐藏的Tokens终于可以被审计了
  • 23 万的小鹏G7,「硬刚」Model Y和小米YU7
  • 豆包电脑版上线AI播客功能,支持一键生成播客
  • 准确率是DeepSeek-R1两倍以上,前谷歌CEO押注的初创公司开源240亿参数科学推理模型
  • Nature子刊 | 显著提升生物医学中蛋白质递送能力,生成式AI扩展线粒体靶向工具包
  • 读博士,去哪找那么多创新点?水水得了...
  • ICML 2025 | 北大KA-Prompt首创提示知识对齐范式,跨域推理不再“鸡同鸭讲”
  • 欧洲团队开源「地球AI大脑」!EarthMind突破遥感多模态统一理解壁垒
  • 北京内推 | 联想研究院人工智能实验室招聘多模态算法实习生
  • 首个转型AI公司的新势力,在全球AI顶会展示下一代自动驾驶模型
  • 从扭秧歌到跑半马:机器人离「iPhone时刻」还有多远?
  • 首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会
  • 同一天开源新模型,一推理一编程,MiniMax和月之暗面开卷了
  • 突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star
  • 从「万元咨询」到夸克免费 AI:一场高考志愿的「信息平权」之战
  • CVPR 2025 | 零开销缓解物体幻觉:基于零空间投影的多模态大模型物体幻觉消除方法
  • 刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
  • 搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好
  • 华为发「天才少年」课题,涉 AI、汽车;雷军:小米 YU7 提前发布;川普推「MAGA」土豪金手机,3585 元起
  • CVPR史上首次!中国车厂主讲AI大模型,自动驾驶也玩Scaling Law?
  • 刚刚,谷歌AI路线图曝光:竟要抛弃注意力机制?Transformer有致命缺陷!
  • 亚马逊码农噩梦来袭!沦落「仓库工人」,每天流水线分拣「AI代码」
  • 特朗普「全政府AI计划」竟在GitHub泄密!或于7月4日「独立日」上线
  • 目标检测之“看见角度”:YOLO11 与定向边界框(OBB)检测
  • 大力出奇迹失灵了?ModelSwitch跳出采样黑洞,改写大模型推理范式
  • ACL 2025 | 数据多不如风格齐?SCAR精选<1%样本,指令微调效果飙升
  • 从“比像素”到“懂语义”!Video-Bench实现视频质量精准打分,突破73%人类认同率
  • 北京内推 | 小米汽车自动驾驶与机器人部招聘感知算法实习生
  • 「人类飞机上吵架看呆袋鼠」刷屏全网,7000万人被AI耍了
  • SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?
  • Nature子刊,北大团队使用多视图GNN进行基于生态位的细胞间通信研究
  • 九章云极发布九章智算云Alaya NeW Cloud 2.0, 开创Serverless+RL技术趋势
  • AI进化三年,产业落地真拐点可能就在这场全球顶尖金融智能赛事里
  • 初赛报名截止倒计时!75万奖池+心动Offer,启元实验室重磅赛事等你来战!
  • 高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
  • 如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架
  • Nature子刊,中国科大团队提出迁移学习指导的圆偏振磷光材料设计
  • 复旦团队让线粒体自噬「可视化」,AI-FM揪出抗阿尔茨海默病潜力药
  • 通过对话即可执行DNA、RNA和蛋白质任务,InstaDeep提出多模态智能体ChatNT
  • 大模型能否读懂真实病历?哈佛医学院发布BRIDGE大规模多语言评测基准
  • Muon作者仅用一篇博客,就被OpenAI看中了
  • ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
  • 罗永浩数字人开播,GMV超 5500 万;泡泡玛特首家珠宝店正式开门;特斯拉 Robotaxi 真车曝光
  • 刚刚!陶哲轩3小时对话流出:AI抢攻菲尔兹奖倒计时
  • 《人类简史》作者怒怼硅谷:智能≠真理,AI正在走偏!
  • 12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈
  • 硅谷精英集体参军!代号「201分队」,Meta、OpenAI首席技术官入伍
  • 刚获得一亿美元融资的地瓜机器人,挑战让智能机器人变得更便宜
  • 放弃博士学位加入OpenAI,他要为ChatGPT和AGI引入记忆与人格
  • 机器人也能边想边做!清华团队OneTwoVLA让机器人煮火锅、炒菜、调酒样样精通
  • 复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕
  • 谢赛宁敲响学界警钟!AI研究可能陷入一场注定失败的有限游戏
  • AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字
  • CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶
  • 首个统一的图像与视频AIGC可解释性检测框架,多榜单SOTA性能
  • 特朗普或推出以其名字命名的手机品牌;百度启动最大规模 AI 人才招聘;《鱿鱼游戏》第三季预告发布|极客早知道
  • 小扎豪掷143亿美元赌新「王」!28岁华人亿万富翁入职Meta,与谷歌决裂
  • 模型遗忘不代表记忆抹除!首次系统发现「可逆性遗忘」背后规律
  • 谢赛宁开炮,现场打脸CVPR评审!Sora开山之作DiT被拒,怒斥AI学术圈畸形
  • 和AI聊太深?他们离婚、跳楼、自杀了!ChatGPT精神病正在爆发
  • LLM已能自我更新权重,自适应、知识整合能力大幅提升,AI醒了?
  • 多智能体在「燃烧」Token!Anthropic公开发现的一切
  • 苹果《思考的错觉》再挨批,Claude与人类共著论文指出其三大关键缺陷
  • 单卡4090也能高质量视频编辑!西湖AGI Lab无训练框架FlowDirector来了
  • ICCV 2025 MARS2 Workshop 多模态推理竞赛启动
  • 消息称腾讯未考虑收购 Nexon;追觅否认「断指计划」;李国庆与俞渝就财产分割达成最终和解
  • 光场显微飞跃AI时代!清华等首提SeReNet:毫秒级高分辨光场三维重建
  • 苏妈联手OpenAI,AMD发布3nm怪兽MI355X,性能碾压英伟达B200!
  • 何恺明评审,谢赛宁获奖!牛津华人博士生拿下CVPR 2025最佳论文
  • 刚刚,CVPR 2025奖项出炉:牛津&Meta博士生王建元获最佳论文,谢赛宁摘年轻研究者奖
  • ICML 2025 | 千倍长度泛化!蚂蚁新注意力机制GCA实现16M长上下文精准理解
  • 字节跳动技术副总裁洪定坤:TRAE 想做 AI Development
  • 「倒计时3天」2025 WAIC云帆奖全球征集|共青年之智,铸AGI未来
  • 2025谷歌研究学者计划名单:吴佳俊、Mamba作者Albert Gu、Tri Dao等获奖
  • 一粒「扣子」,开启了Agent的全生命周期进化
  • 聊透 Agent,它是「同事」还是「工具」,创业机会和价值究竟是什么?
  • 零训练即可实现自我演化!首个基于科学智能体架构的AI疾病生物学家发布
  • 腾讯2026青云计划启动,百余项技术课题支持青年人才挑大梁
  • AI研究人员如何节约能源?通过反向计算
  • 提前15天预测50种可能情景,谷歌DeepMind凭借新模型彻底改变了台风预报
  • 腾讯打出「AI岗位薪酬不限」的底气来自哪?
  • 1200行代码逆袭!DeepSeek工程师开源轻量级vLLM,吞吐量逼近原版
  • 刚刚,Scale AI CEO Alexandr Wang正式官宣:Meta重金投资并挖走了我
  • 统一20+多智能体方法,MASLab震撼发布
  • CVPR 2025 论文推荐 :VGGT,快速 3D 重建新范式
  • 科大讯飞最新发布!打造下一代智能交互新范式
  • AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need
  • CVPR 2025 Highlight|北大联手智元发布首个基于说明书的家电操作评测基准
  • 波音 787 在印度发生首次坠毁事故;哪吒汽车通知员工居家办公;阿里发布高考志愿大模型|极客早知道
  • DeepMind首个猜想库开源,获陶哲轩力挺!
  • 1万块GPU砸向欧洲!老黄怒怼AI末日论:全球首个工业AI云来了
  • 何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍
  • CVPR 2025 多模态大一统:斯坦福 x 复旦提出符号主义建模生成式任务
  • 精度达原子级,基于深度学习的动态蛋白质设计,登Science
  • 英伟达打造全球首个工业AI云,配万块GPU,物理AI机器人集群已启动
  • 字节自研AI IDE “TRAE”,月活用户已超百万
  • 从高考到实战,豆包大模型交卷了
  • 通义实验室最新成果WebDancer:开启自主智能Deep Research的新时代
  • 256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV
  • 拆解火山引擎后,我看到了字节跳动的「变奏」
  • ACL 2025 | 让大模型听懂育种的语言,科学家提出首个种子科学多任务评测基准SeedBench
  • ICML 2025 | Agentic时代唤醒NAS"第二春"!智能体超网动态组队,推理成本暴降55%
  • Image Caption复兴宣言!南大港大CapArena重塑「详细图像描述」评测体系
  • 视频理解“隐秘的角落”:多任务视频文本理解评测新基准VidText发布
  • 博士申请 | 上海交通大学人工智能学院刘松桦老师招收视觉生成方向博士/硕士/实习生
  • SIGGRAPH 2025奖项出炉:上科大、厦大最佳论文
  • 2D图像作中介,零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程
  • 刚刚,LeCun亲自出镜,Meta推出新世界模型!
  • 银河通用X清华大学发布业内首款开源人形机器人全身遥操系统OpenWBT,支持多机型、跨虚实,小时内可轻松部署
  • CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源
  • 马斯克道歉,特朗普回应;阿里离职员工发万字长文,马云回应;华为发布 Pura 80 系列,余承东称对得起那四个字

Nature警告:AI「数据饥渴症」引爆学术宕机潮!90%知识库濒临崩盘



  新智元报道  

编辑:犀牛
【新智元导读】学术网站本是知识的宝库,却因AI爬虫的疯狂掠夺而陷入瘫痪。从DiscoverLife到BMJ,数百万次异常访问让服务器不堪重负,威胁着开放获取的科研命脉。这场「数字蝗灾」究竟因何而起?学术界又该如何应对?

假如一个平日里宁静的图书馆,突然涌入一大群不速之客,他们不阅览、不沉思,只是一味地疯狂复印每一本书的每一页。

这喧嚣吵闹的场面,怎能不打扰那些正埋首书海、专心阅读的人们呢?

如今,学术网站正遭遇类似的「数字入侵」。

就在近日,Nature发表文章详细揭露了这些行为。

文章地址:https://www.nature.com/articles/d41586-025-01661-4


数字「蝗灾」席卷学术界

DiscoverLife是一个在线图像库,拥有近300万张珍贵的物种照片,是很多生物学家的科研生命线。

然而,从今年2月开始,该网站每天都被数百万次异常访问淹没,页面加载缓慢,甚至彻底瘫痪。

当你试图打开一张稀有昆虫的图片时,却只能面对「服务器繁忙」的提示。

罪魁祸首是谁?

不是黑客,也不是病毒,而是一群悄无声息的AI爬虫,正在疯狂「啃食」数据,为生成式人工智能「喂食」。

这些大量抓取数据的爬虫,正困扰学术出版商与研究人员,尤其是运营期刊论文、数据库和其他资源网站的人。

「现在的情况就像是西部大荒野,」PSI公司的首席执行官Andrew Pitts说。该公司为学术交流界提供经过验证的全球IP地址库,位于英国牛津。

「最大的问题是访问量实在是太大了,给系统带来了巨大的压力。这不仅耗费资金,还干扰了真正的用户。」

那些运营受到影响的网站正在想方设法阻止这些爬虫机器人,减少他们造成的干扰。

但这绝非易事。特别是对资源有限的小机构来说。

「如果这些问题得不到解决,一些小型机构可能会彻底消失。」德国斯图加特国家自然历史博物馆的动物学家Michael Orr表示。


爬虫程序泛滥

互联网爬虫并非新生事物。

几十年来,谷歌等搜索引擎的爬虫一直在扫描网页,助力信息检索。

然而,生成式AI的崛起引发了「坏爬虫」的洪流。

今年,位于伦敦的医学期刊出版商BMJ发现,其网站上的爬虫机器人流量已经超过了真实用户的流量。

BMJ的首席技术官Ian Mulvany表示,这些机器人激进的行为导致服务器超载,正常客户的服务也因此中断。

不只BMJ,Highwire Press(专攻学术出版的互联网托管服务提供商)的服务交付总监Jes Kainth直言:「我们观察到坏爬虫的流量激增,这已成为严重的问题。」

开放获取知识库联合会(COAR)在四月份的报告中指出,在其调查的66个成员中,超过90%的成员表示曾遭遇AI爬虫抓取内容。

其中大约三分之二的成员因此经历了服务中断。

COAR执行主任Kathleen Shearer表示:「我们的知识库是开放获取的,所以某种程度上我们欢迎内容被再利用。但有些爬虫过于激进,正造成宕机等严重运营问题。」


为何盯上学术网站?

数据是新石油。

这句话在AI时代被演绎得淋漓尽致。

LLM、图像生成器这些AI工具依赖海量高质量数据进行训练,而学术网站(期刊论文、数据库、开放知识库)成了「金矿」。

因为这些网站内容权威、新鲜,且往往结构化良好。

正如网络服务提供商Cloudflare副总裁Will Allen所言:「如果你的内容新颖或相关度高,对构建AI聊天机器人的开发者来说就是无价之宝。」

这些爬虫往往通过匿名IP地址行动,绕过付费墙,甚至无视网站设置的robots.txt文件(用于规范爬虫行为)。

Wiley出版社的高级副总裁Josh Jarrett表示,他们发现爬虫试图获取订阅内容。4月,Wiley还发布声明,强调未经授权的非法爬取不可接受。

但精明的坏爬虫非常擅长绕过付费墙。


危机下的挣扎

面对爬虫洪流,学术网站在奋力自救。

但在许多情况下,限制机器人访问而不影响正常用户十分的困难。

一种常见的方法是集成一个文件,告知机器人哪些行为被允许或禁止。

但坏爬虫往往无视规则。

另一种方法是全面封禁所有爬虫类似的行为,但这种一刀切的行为又可能误伤合法用户。

Mulvany解释说,学者常通过代理服务器访问期刊(这意味着大量请求可能来自同一个IP地址),这种访问方式很像是机器人行为。

「我们得找到一个平衡点,既要保护网站不被流量激增搞崩,又不能影响用户正常访问这些资源。」Mulvany表示。

「这事真挺烦人的,得花不少精力来减少这些风险。」

这些网站也可以屏蔽掉特定的爬虫程序,但需要首先区分善意和恶意爬虫。

Cloudflare和PSI公司正努力识别坏爬虫,但新型AI爬虫层出不穷,难以完全遏制。

「我们急需国际上达成关于AI公平使用和尊重这类资源的协议。」Orr表示。

「否则,长远来看,这些工具将找不到可用的训练资源。」

参考资料:
https://www.nature.com/articles/d41586-025-01661-4
https://coar-repositories.org/news-updates/open-repositories-are-being-profoundly-impacted-by-ai-bots-and-other-crawlers-results-of-a-coar-survey/


图片


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652602138&amp;idx=2&amp;sn=a3b9625b75f236fe18ed9349d1314e86&amp;chksm=f08ee994b14f0e59ef66cb094f9698d47e24da429b65d54a063d60077d9937b257bd10fc54a3&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/Xu9JE3eFUC&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们