52CV 2025-09-06 11:38 江苏
近年来,大规模点云预训练模型已成为3D视觉领域的基石,但其巨大的模型体积和高昂的微调成本,正逐渐成为研究和应用落地的一大瓶颈。如何在保持卓越性能的同时,将微调的“开销”降到最低?
近日,一项已被计算机视觉顶刊 IEEE TPAMI 接收的工作——PointGST (Point cloud Graph Spectral Tuning),为这一问题提供了全新的解决方案。这项由华中科技大学团队提出的全新参数高效微调(PEFT)方法,创新性地将视角落在了“谱域(Spectral Domain)”,仅用0.67%的可训练参数,就在ScanObjectNN数据集上,将分类精度首次突破99%,达到了惊人的99.48%,建立了全新的SOTA,几乎宣告了该数据集的性能饱和。此外,该方法还可泛化到点云分割,点云检测,甚至点云补全任务中,并取得优异表现。
论文标题: Parameter-Efficient Fine-Tuning in Spectral Domain for Point Cloud Learning
论文链接: https://ieeexplore.ieee.org/abstract/document/11106720/
一、 挑战:空间域微调的“迷雾”
预训练+微调(Pre-train, Fine-tune)已是当前AI领域的主流范式。然而,在点云领域,传统的完全微调(Full Fine-tuning)策略需要更新模型的所有参数,这不仅消耗海量的GPU显存和存储资源,也让模型的快速部署和迭代变得异常困难 。为了解决这个问题,学术界提出了多种参数高效微调(PEFT)方法 ,如IDPT、DAPT等 。这些方法通过冻结主干网络、仅训练少量可学习模块来降低成本 。然而,它们普遍存在一个核心局限:所有操作都在空间域(Spatial Domain)进行 。这会带来两大挑战:
特征混淆(Token Confusion):预训练模型学习的是通用知识,在面对下游具体任务时,从冻结模型中提取的特征可能会产生混淆 。例如,即使点云上两个几何结构相似的区域,其输出特征也可能差异巨大 ,这给后续的微调带来了困难。
内在信息缺失(Missing Intrinsic Information):下游任务点云自身独特的几何结构和拓扑关系(即内在信息)对于精准分析至关重要 。现有的PEFT方法很少能显式地利用这些宝贵信息 。
二、 破局:从“空间”到“谱域”的跃迁
面对空间域的瓶颈,该研究的作者团队敏锐地发现,谱域为解决上述问题提供了绝佳的思路 。
核心思想: 将点云特征从复杂的空间域,通过图傅里叶变换(GFT)转换到信息更纯粹、结构更清晰的谱域进行微调 。这就像处理一段嘈杂的音频信号,直接在时域(相当于空间域)上分析可能一团乱麻,但通过傅里叶变换到频域(相当于谱域)后,各种频率成分一目了然,处理起来就得心应手了。
PointGST正是基于这一洞察,设计了轻量级的点云谱域适配器(PCSA) 。其工作流程可以概括为:
构图与谱分解:将下游任务的原始点云构建成多尺度的图,并通过拉普拉斯矩阵的特征分解,得到一组能够反映点云内在几何结构的正交谱基 。这组基是数据原生的,包含了任务的“先验知识”。
信号上图,谱域转换:将冻结的预训练模型输出的特征视为图上的信号 ,利用第一步得到的谱基,通过图傅里叶变换(GFT)将其投影到谱域 。
谱域微调:在谱域中,混淆的特征信号被正交的谱基自然地解耦(de-correlated) ,优化过程变得更加轻松高效。PCSA仅需一个共享线性层,就能在谱域上对特征进行精准适配 。
返回空间域:微调完成后,通过逆图傅里叶变换(iGFT)将特征送回空间域,与主干网络无缝衔接 。
通过这一系列操作,PointGST巧妙地利用正交性化解了特征混淆 ,并将下游点云数据的内在结构信息融入微调过程 ,实现了知识的高效、精准迁移。
三、 实验结果
PointGST的性能到底有多卓越?一表胜千言!
该研究在多个权威数据集和任务上进行了详尽的实验,结果全面超越了现有方法 :
登顶性能之巅:在最具挑战性的ScanObjectNN数据集上,PointGST将PointGPT-L模型的精度从97.2%提升至98.97% (OBJ_BG),甚至在Voting设置下达到了99.48%,成为首个在该榜单上突破99%大关的方法 。在ModelNet40、ShapeNetPart等八个主流数据集上均取得了SOTA或极具竞争力的表现 。
极致的参数效率:达到上述惊人性能,PointGST的可训练参数量仅为2.4M,占PointGPT-L(360.5M)完全微调参数的0.67% 。相比其他PEFT方法,PointGST在参数更少的情况下,性能依然遥遥领先 。
卓越的泛化能力:PointGST被应用于Point-BERT、Point-MAE、ACT、RECON等多种不同结构和大小的预训练模型上,均表现出稳定且显著的性能提升。这解决了现有PEFT方法在不同模型上表现不一,甚至性能下降的痛点。
数据高效,无惧小样本:在少样本学习场景下,PointGST同样表现出色。仅使用2%的训练数据,其性能就远超其他PEFT方法,展现了在数据稀缺场景下的巨大潜力 。
四、 总结与展望
本文提出了一种名为PointGST的点云参数高效微调方法。通过将微调过程从传统的空间域转换到谱域,该方法能够有效缓解冻结模型中的特征混淆问题,并融入下游数据自身的内在结构信息。大量的实验结果表明,PointGST在显著降低微调成本的同时,可以在多项基准测试上取得具有竞争力的性能。
总体而言,这项工作为点云模型的参数高效微调探索了一条在谱域中进行的新路径,为解决大模型落地应用中的效率与性能平衡问题提供了一个有益的思路。希望该研究能为社区在3D视觉及相关领域的发展带来一些参考和启发。
了解最新 AI 进展,欢迎关注公众号:aicvml投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、转发、评论。