CV君 2025-09-28 12:12 江苏
一招解耦,告别联邦学习“双重遗忘”?
今天想跟大家聊一篇来自北京大学、中国科学院大学和内蒙古工业大学的最新研究成果,这篇论文已经被 NeurIPS 2025 接收。
想象一下,我们有很多智能设备(比如手机),它们各自在本地学习新知识,同时又需要协作共享,共同进步。这个场景就是“联邦学习”。但如果任务是持续不断更新的,比如今天识别猫狗,明天学习识别鸟类,问题就变得复杂了,这就是“联邦持续学习”(Federated Continual Learning, FCL)。
FCL面临一个非常棘手的“双重遗忘”问题:一是“时间遗忘”,即模型在学习新知识时忘记了旧知识;二是“空间遗忘”,即不同设备(客户端)学习到的知识相互冲突,导致全局模型性能下降。
最近,基于“提示”(Prompt)的方法在FCL领域表现不错,它通过固定一个大的预训练模型,只为每个任务学习和交换一些轻量的“提示”来解决问题。但作者发现,现有方法在处理跨客户端的“类别级知识一致性”时存在短板,这会加剧“双重遗忘”。
为了解决这个问题,研究者们提出了一个名为 C²Prompt 的新方法。这个名字也很有意思,C² 代表“Class-aware Client”,即“感知类别的客户端”,Prompt点明了这是一种基于提示的方法,合起来就是“为联邦持续学习设计的、能感知类别并进行客户端知识交互的提示方法”。
文章标题:C²Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning
项目地址:https://github.com/zhoujiahuan1991/NeurIPS2025-C2Prompt
核心思想:两大组件解耦知识冲突
C²Prompt的核心在于,它在客户端之间进行提示(Prompt)交流时,显式地增强了“类别级知识的一致性”。它主要通过两个巧妙设计的组件来实现:
本地类别分布补偿 (Local Class Distribution Compensation, LCDC)这个组件用来解决“类内分布差异”问题。简单来说,不同客户端上关于同一个类别的数据可能看起来不太一样(比如客户端A的“猫”都是橘猫,客户端B的都是黑猫),这会导致学习到的“猫”的语义表示有偏差。LCDC通过在本地收集各个类别的特征分布,上传到服务器进行聚合,估算出一个“全局平均”的类别分布,然后再发回给各个客户端。客户端利用这个全局分布来训练一个“补偿提示”,把本地有偏差的特征“拉回”到全局平均水平,从而增强了类内知识的一致性。
类别感知提示聚合 (Class-aware Prompt Aggregation, CPA)这个组件则专注于解决“类间知识混淆”的问题。在聚合不同客户端上传的提示时,如果简单粗暴地平均一下,很可能会让不同类别的知识相互干扰。CPA则聪明得多,它会评估每个提示与不同类别的相关性,然后有选择性地、加权地聚合那些与特定类别高度相关的知识。这样一来,就能有效减少类别间的混淆,让聚合后的知识更“纯粹”。
实验效果:全面超越SOTA
为了验证C²Prompt的实力,作者在ImageNet-R、DomainNet和CIFAR-100等多个主流FCL基准上进行了大量实验。
从上表可以看到,无论是在ImageNet-R还是DomainNet数据集上,C²Prompt在平均准确率(Avg)等多个关键指标上都显著优于之前的所有方法,达到了 新的SOTA 水平。例如,在ImageNet-R上,它的平均准确率达到了 87.20% ,相比之前最好的方法Powder提升了 2.51% 。
上图展示了在持续学习过程中,模型在已见任务上的平均准确率变化曲线。可以看到,C²Prompt的曲线(红色实线)不仅全程领跑,而且保持了非常平稳的上升趋势,这说明它在新旧知识之间取得了很好的平衡,有效抑制了灾难性遗忘。
为了证明两个核心组件(LCDC和CPA)的有效性,作者还进行了消融实验。结果显示,单独使用任何一个组件都能带来性能提升,而将两者结合使用时,效果最好,证明了它们之间的互补性。
更有趣的是,通过可视化提示的注意力图,可以发现C²Prompt生成的提示能更精准地聚焦于图像中的判别性区域(比如物体的关键部分),而忽略不相关的背景。这直观地证明了该方法学习到的知识质量更高。
在通信开销方面,C²Prompt也控制得相当不错。相比之前的方法,它只带来了非常微小的额外开销,这在资源受限的边缘设备上尤为重要。
作者还在不同的数据异构性(β值)下进行了测试,发现在数据分布差异极大的情况下(β值很小),C²Prompt的优势更加明显,这充分说明了其鲁棒性。
超参数的分析也表明了模型的稳定性和设计的合理性。
最后,更多的可视化结果进一步佐证了C²Prompt在不同数据集上的优越性。
总结
CV君认为,这篇工作非常有启发性。它没有停留在简单地聚合或选择提示,而是深入到了“类别”这个更细的粒度,去分析和解决知识冲突的根源。通过解耦类内和类间的知识交互,C²Prompt为解决联邦持续学习中的“双重遗忘”问题提供了一个非常优雅且有效的方案。这种对知识进行精细化管理的思想,或许能为未来FCL甚至更广泛的分布式学习领域的研究带来新的思路。
大家对这个方法怎么看?欢迎在评论区留下你的看法!