动态列表

OpenAI重组GPT-5「灵魂」团队！亚裔女负责人遭调离，罕见自曝AI幻觉祸首
设计师大解放！清华发布「建筑平面图」自动生成模型 | ACL'25
谁不用谁亏！Karpathy吹爆GPT-5：10分钟编码完胜Claude一小时，奥特曼秒回感谢
震撼实锤！清华姚班校友揭「1.4×加速」陷阱：AI优化器为何名不符实？
Anthropic被作家告了，违规下载700万本书，15亿美元和解了
英伟达的局：狂撒15亿美元，从Lambda那租到了搭载自家AI芯片的GPU服务器
OpenAI罕见发论文：我们找到了AI幻觉的罪魁祸首
00后以1.1亿美金「掀桌」，硅谷AI将书写影视新传奇终结制片旧时代
任意骨骼系统的模型都能驱动？AnimaX提出基于世界模型的3D动画生成新范式
ICCV 2025 | MOSEv2 全新亮相，第七届 LSVOS 挑战赛正式开启！
华为新问界 M7，6 小时订单破 13 万；等 eSIM，iPhone17 Air 首发无国行；特斯拉拟给马斯克 1 万亿薪酬
力压哈佛MIT！北交大、清华勇夺2025国际大学生程序设计竞赛金牌
长视频生成可以回头看了！牛津提出「记忆增稳」，速度提升12倍
0.01%参数定生死！苹果揭秘LLM「超级权重」，删掉就会胡说八道
今天，特朗普闭门宴请了大半个硅谷的CEO，马斯克老黄没来
追觅给洗地机，加了一双「灵巧手」
被网友逼着改名的谷歌Nano Banana，正在抢99%时尚博主的饭碗
不止会动嘴，还会「思考」！字节跳动发布OmniHuman-1.5，让虚拟人拥有逻辑灵魂
外滩大会主论坛阵容揭幕！顶级学者、产业领袖和青年创新力量共话未来
第一家 AI 浏览器公司，卖了 43 亿！
Nano Banana爆火之后，一个神秘的「胡萝卜」代码模型又上线了
博士申请 | 香港中文大学（深圳）游宇宁老师招收人工智能+生物医药全奖博士/实习生
推理加持的排序SOTA！把“召回+相似度”写进RL，文档排序更稳更准
KDD 2025 | 图异常基础模型来了：跨域零样本、少样本微调，原型残差全拿下
透明度罕见！百川公开M2完整技术报告，强化学习新范式引发行业关注
沉寂一个月，openPangu性能飙升8%！华为1B开源模型来了
多模态大模型持续学习系列研究，综述+Benchmark+方法+Codebase一网打尽！
TPAMI重磅综述：一文读懂人类动作视频生成的五大阶段与三大多模态技术
拓展天文学认知边界，Google DeepMind用AI助力LIGO，填补宇宙演化史缺失环节
拍我AI限时免费6天！手办、宠物、奇幻创意随你生成不限次！
传 DeepSeek AI 代理新模型年底发布；马斯克「金色擎天柱」首曝；比亚迪不回应销量下调传闻
通用LLM压缩算法，居然藏视频编码里！2.5bit实现4bit性能，硬件无缝支持
83岁用DeepSeek抢单，96岁凭AI挣养老钱！这群80+老人比你还会玩AI
「纳米香蕉」LMArena两周500万投票，引爆10倍流量！谷歌、OpenAI扎堆打擂台
DeepSeek大招曝光？梁文峰督战超级智能体：能自主学习，或年底发布
24999 元！华为推了一个「最大」的 Mate！
刚刚，李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了
又多了一个哄孩子AI神器，一张破涂鸦竟能秒变迪士尼动画
PosterGen：告别学术海报制作烦恼，从PDF一键生成「演示级」可编辑PPTX学术海报
「一句话生成爆款视频」，这款 AI 流量神器有点东西｜AI 上新
Claude Code凭什么牛？大模型团队天天用自家产品，发现bug直接就改了
刚刚，OpenAI发布白皮书：如何在AI时代保持领先
科研AI的进化论！系统梳理600+数据集与模型，上海AI Lab等发布科学大语言模型全景式综述
腾讯 ARC Lab 开源 IC-Custom ：一个强大且灵活的图像定制化工具！
长视频AI数字人来了！字节×浙大推出商用级音频驱动数字人模型InfinityHuman
全奖读AI！人工智能专业排名全球前10的MBZUAI启动本硕博项目招生
SIGCOMM 2025｜重新定义个性化视频体验，快手与清华联合提出灵犀系统
拜读了某大佬发表的N篇顶会，原来论文“灌水”是这么玩的
北京内推 | 阿里夸克教育团队招聘推荐大模型数据算法实习生
听见空间！ASAudio全景综述：空间音频表示→理解→生成全链路
多模态大模型，真的“懂”世界吗？ICML 2025高分论文实锤核心认知盲区
特斯拉下一代金色Optimus原型现身？一双「假手」成为最大槽点
让具身智能体拥有「空间感」！清华、北航联合提出类脑空间认知框架，导航、推理、做早餐样样精通
传特斯拉 Model Y L 日均订单过万；苹果联手谷歌，Siri 整合 Gemini；优必选获 2.5 亿，全球最大人形机器人订单
UCSD首个智能体浏览器发布！多页面设计，颠覆传统交互
Hinton最新警告：杀手机器人或将带来更多战争，最大担忧是AI接管人类
AI教父Hinton诺奖演讲首登顶刊！拒绝公式，让全场秒懂「玻尔兹曼机」
奥数金牌只是序章！OpenAI谷歌彻底打脸预言家，AI巨浪势不可挡
出货 1000 万台硬件后，我们和「凯叔讲故事」聊了聊「AI玩具」的核心
他不懂代码，却用 AI 黑掉 17 家医院和机构，Vibe Hacking 让全世界变成缅北
刚刚，谷歌放出Nano Banana六大正宗Prompt玩法，手残党速来
Anthropic承认模型降智后仍放任其偷懒？Claude Code用户信任崩塌中
ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成
ICLR 2025｜KGExplainer：让新知识的发现“有理可循”
入局AI4S？CPO宣布「OpenAI for Science」计划：打造下一代科学工具
2025外滩大会下周开幕 16位院士、图灵奖得主领衔40多场思想盛宴
从复刻魔术开始，RoboMirage打开了机器人仿真的新世界
宇树科技官宣：年内提交IPO，或将冲刺科创板
其实，扩散语言模型在最终解码之前很久，就已确定最终答案
语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究
北京/苏州内推 | 微软亚太研发集团招聘AI智能预测实习生
原子思维上线！Agentic Deep Research再进化：推理更深、答案更准
【9月9日直播】大模型复杂推理技术：如何重塑AI推理逻辑
Benchmark新试炼场！从棋盘到德扑全覆盖，GAMEBoT虐测大模型推理力
USO：鱼与熊掌亦可兼得，字节跳动提出统一框架，完美融合主体与风格生成
刚刚，Anthropic在质疑声中获130亿美元融资，估值达1830亿
IROS 2025 | 机器人衣物折叠新范式，NUS邵林团队用MetaFold解耦轨迹与动作
iPhone 17定价曝光，仅Pro涨价；李斌：4季度实现月卖5万台车；COD「使命召唤」大电影官宣｜极客早知道
一张卡片，不仅 AI 了我的工作，还摸清了我的八字和 MBTI？｜AI 上新
马斯克曝终极AI计划！特斯拉堵上80%身家：500亿机器人打工，人类坐等拿钱
别错过这场AGI风暴！清华人大等AI大佬集结，剑指数字和物理世界进化
AI杀死首个世界名校？全球TOP 3「翻译界哈佛」倒闭，毕业校友成绝版
无惧AI失业潮的「铁饭碗」，微软揭秘了！能干到退休
为什么在小红书里的「电商」，长成了「市集」的模样
开学&教师节双重豪礼，英博云算力低至8毛8/卡时，赶紧薅起来
苹果新研究：不微调、不重训，如何让AI提问效率暴增6.5倍？
Scaling Laws起源于1993年？OpenAI总裁：深度学习的根本已揭秘
告别无效计算！新TTS框架拯救19%被埋没答案，推理准确率飙升
结构高度合理、具备理想特性，华东师大等提出分子生成新方法，协同生成原子与化学键
博士申请 | 北京大学计算机学院-中国电信招收计算机视觉方向联培博士生
ACM MM Asia火热征稿中！低年级PhD友好，不卷SOTA只看新意
经典机械物理模型 × 深度学习：揭开神经网络特征学习的秘密
ICML 2025 | 从联合空间到文本空间：测试时增强跨模态检索新范式
冲上热搜！美团大模型，靠「快」火了
DeepMind爆火论文：向量嵌入模型存在数学上限，Scaling laws放缓实锤？
ICCV 2025 | InterVLA：聚焦第一视角感知决策，大规模通用人-物-人交互数据集与评测基准
AI读网页，这次真不一样了，谷歌Gemini解锁「详解网页」新技能
性能逼近闭源最强，通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA
广告，救不了 AI 搜索
14B打败671B！微软rStar2-Agent在数学推理上超过DeepSeek-R1
自搜索强化学习SSRL：Agentic RL的Sim2Real时刻
全球机器翻译比赛拿下30个语种第1名，腾讯混元翻译模型开源
腾讯回应米哈游起诉：QQ用户资料不能随便给；特斯拉首曝Cyber SUV；外卖「小电驴」须装北斗定位｜极客早知道
NeurIPS近3万投稿爆仓，强拒400篇论文！博士疯狂内卷，AI顶会噩梦来袭
同行评审濒临崩溃！一篇审稿报告450美元？科学家不再愿意「用爱发电」
CEO卷款夜逃迪拜，15亿美元独角兽爆雷！700印度码农冒充AI，坑惨微软
刚刚，DeepSeek最新发文！V3/R1训练细节全公开，信息量巨大
让图像会说话！视觉Token注入CLIP语义，TokLIP重塑多模态理解与生成
EMNLP 2025｜人声解耦×伴奏对齐！浙大VersBand打造提示可控的歌曲生成框架
北京内推 | 联想研究院AI Lab招聘大模型算法实习生
GRPO偷偷优化Pass@K？从0-1奖励到无偏策略，DeepMind揭示全面解法
快手的 2025：一个4亿人社区的新陈代谢，与2600万人的变现之路
开学了：入门AI，可以从这第一课开始
OpenAI大神：人工智能导论课程停在15年前，本科首选该是机器学习导论
中国电竞，已经是 Next Level！
NeurIPS 2025：高分论文也可能被拒，只为保住那25%左右的接收率？
DeepSeek、GPT-5都在尝试的快慢思考切换，有了更智能版本，还是多模态
把实验与计算「缝」到一张「地图」上：AI让材料发现路线更直观、可解释
字节跳动提出OneReward：一个奖励模型统一多任务图像生成，效果全面超越PS！
从「卖设备」到「建关系」，AI 硬件的破局点到底在哪里？
首个为具身智能而生的大规模强化学习框架RLinf！清华、北京中关村学院、无问芯穹等重磅开源
科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生
科研智能体「漫游指南」—助你构建领域专属科研智能体
今起 AI 生成内容必须亮明身份；大疆双摄 Pocket 4 曝光；微信公号留言广告上线
GPT-5冷酷操盘，狼人杀一战封神！七大LLM狂飙演技，人类玩家看完沉默
柳叶刀惊曝：AI让医生6个月「废功」20%，癌症检出率崩盘！
硅谷炸雷！xAI创始老哥携机密叛逃OpenAI，马斯克：他上传了整个代码库
143亿美金买来一场空！小扎向谷歌OpenAI低头，史上最大AI赌注失速
北京内推 | 微软DKI大模型团队招聘大模型/Agent/广告推荐方向研究型实习生
性能超越GPT-5，成本减30%！大模型装上智能路由，Avengers-Pro刷新性价比极限
EMNLP 2025 | 看图就越狱！视觉上下文攻击：“图像语境”一招撬开多模态大模型
动态压缩CoT！浙大×蚂蚁发布LightThinker，让模型推理“轻起来”
POSE：100倍加速视频生成，腾讯混元提出单步对抗平衡蒸馏框架
那天，AI大模型想起了，被「失忆」所束缚的枷锁
LLM也具有身份认同？当LLM发现博弈对手是自己时，行为变化了
AI智能体是否能预测未来？字节跳动seed发布FutureX动态评测基准
混乱、内耗、丑闻：Meta考虑向Google、OpenAI低头
这个荒诞网站藏着30个AI「鬼点子」，但我觉得它活不长
R-Zero 深度解析：无需人类数据，AI 如何实现自我进化？
DeepSeek、GPT-5带头转向混合推理，一个token也不能浪费
CodeAgent 2.0 时代开启｜GitTaskBench，颠覆性定义代码智能体实战交付新标准

IEEE TPAMI 2025｜ PointGST：参数量仅0.67%，精度首破99%，三维点云处理迎来谱域新范式！

2025-09-06未知作者来源

52CV 2025-09-06 11:38 江苏

近年来，大规模点云预训练模型已成为3D视觉领域的基石，但其巨大的模型体积和高昂的微调成本，正逐渐成为研究和应用落地的一大瓶颈。如何在保持卓越性能的同时，将微调的“开销”降到最低？

近日，一项已被计算机视觉顶刊 IEEE TPAMI 接收的工作——PointGST (Point cloud Graph Spectral Tuning)，为这一问题提供了全新的解决方案。这项由华中科技大学团队提出的全新参数高效微调（PEFT）方法，创新性地将视角落在了“谱域（Spectral Domain）”，仅用0.67%的可训练参数，就在ScanObjectNN数据集上，将分类精度首次突破99%，达到了惊人的99.48%，建立了全新的SOTA，几乎宣告了该数据集的性能饱和。此外，该方法还可泛化到点云分割，点云检测，甚至点云补全任务中，并取得优异表现。

论文标题： Parameter-Efficient Fine-Tuning in Spectral Domain for Point Cloud Learning
论文链接： https://ieeexplore.ieee.org/abstract/document/11106720/
代码链接： https://github.com/jerryfeng2003/PointGST

一、挑战：空间域微调的“迷雾”

预训练+微调（Pre-train, Fine-tune）已是当前AI领域的主流范式。然而，在点云领域，传统的完全微调（Full Fine-tuning）策略需要更新模型的所有参数，这不仅消耗海量的GPU显存和存储资源，也让模型的快速部署和迭代变得异常困难。为了解决这个问题，学术界提出了多种参数高效微调（PEFT）方法，如IDPT、DAPT等。这些方法通过冻结主干网络、仅训练少量可学习模块来降低成本。然而，它们普遍存在一个核心局限：所有操作都在空间域（Spatial Domain）进行。这会带来两大挑战：

特征混淆（Token Confusion）：预训练模型学习的是通用知识，在面对下游具体任务时，从冻结模型中提取的特征可能会产生混淆。例如，即使点云上两个几何结构相似的区域，其输出特征也可能差异巨大，这给后续的微调带来了困难。
内在信息缺失（Missing Intrinsic Information）：下游任务点云自身独特的几何结构和拓扑关系（即内在信息）对于精准分析至关重要。现有的PEFT方法很少能显式地利用这些宝贵信息。

二、破局：从“空间”到“谱域”的跃迁

面对空间域的瓶颈，该研究的作者团队敏锐地发现，谱域为解决上述问题提供了绝佳的思路。

核心思想： 将点云特征从复杂的空间域，通过图傅里叶变换（GFT）转换到信息更纯粹、结构更清晰的谱域进行微调。这就像处理一段嘈杂的音频信号，直接在时域（相当于空间域）上分析可能一团乱麻，但通过傅里叶变换到频域（相当于谱域）后，各种频率成分一目了然，处理起来就得心应手了。

PointGST正是基于这一洞察，设计了轻量级的点云谱域适配器（PCSA）。其工作流程可以概括为：

构图与谱分解：将下游任务的原始点云构建成多尺度的图，并通过拉普拉斯矩阵的特征分解，得到一组能够反映点云内在几何结构的正交谱基。这组基是数据原生的，包含了任务的“先验知识”。
信号上图，谱域转换：将冻结的预训练模型输出的特征视为图上的信号，利用第一步得到的谱基，通过图傅里叶变换（GFT）将其投影到谱域。
谱域微调：在谱域中，混淆的特征信号被正交的谱基自然地解耦（de-correlated），优化过程变得更加轻松高效。PCSA仅需一个共享线性层，就能在谱域上对特征进行精准适配。
返回空间域：微调完成后，通过逆图傅里叶变换（iGFT）将特征送回空间域，与主干网络无缝衔接。

通过这一系列操作，PointGST巧妙地利用正交性化解了特征混淆，并将下游点云数据的内在结构信息融入微调过程 ，实现了知识的高效、精准迁移。

三、实验结果

PointGST的性能到底有多卓越？一表胜千言！

该研究在多个权威数据集和任务上进行了详尽的实验，结果全面超越了现有方法：

登顶性能之巅：在最具挑战性的ScanObjectNN数据集上，PointGST将PointGPT-L模型的精度从97.2%提升至98.97% （OBJ_BG），甚至在Voting设置下达到了99.48%，成为首个在该榜单上突破99%大关的方法 。在ModelNet40、ShapeNetPart等八个主流数据集上均取得了SOTA或极具竞争力的表现。
极致的参数效率：达到上述惊人性能，PointGST的可训练参数量仅为2.4M，占PointGPT-L（360.5M）完全微调参数的0.67% 。相比其他PEFT方法，PointGST在参数更少的情况下，性能依然遥遥领先。
卓越的泛化能力：PointGST被应用于Point-BERT、Point-MAE、ACT、RECON等多种不同结构和大小的预训练模型上，均表现出稳定且显著的性能提升。这解决了现有PEFT方法在不同模型上表现不一，甚至性能下降的痛点。
数据高效，无惧小样本：在少样本学习场景下，PointGST同样表现出色。仅使用2%的训练数据，其性能就远超其他PEFT方法，展现了在数据稀缺场景下的巨大潜力。