动态列表

  • 奥特曼下注27岁神秘青年,「复活」世界最顶级实验室
  • AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
  • Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」
  • 少年沉迷AI自杀,9岁遭性暗示!这门「孤独生意」,正推孩子入深渊
  • 双十一算力真敢卷!RTX 5090低至0.69元/时,同预算跑更多实验
  • 北京内推 | 阿里高德地图团队招聘大模型方向算法实习生(可长期/转正)
  • 对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
  • 深度复盘:大疆是如何成为影像领域新巨头的?
  • 传李想亲抓人事,华为系高管退出理想;Meta 首席 AI 科学家杨乐昆离职创业;AI 减肥或致饮食失调
  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东
  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!
  • AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道
  • 谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
  • 狗也被AI抢饭碗?好莱坞动物演员全下岗,观众直接翻脸了!
  • ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了
  • 小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」
  • NeurIPS25 | 清华&北大提出LinearDiff-ViT:让Transformer学会“找不同”,实打实提升模型性能
  • AI 六巨头罕见同台,辨论 AI 泡沫;SpaceX 公布简化版登月舱方案;王者荣耀年度总决赛首次在鸟巢举办
  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 复盘大疆 Pocket 的七年:从「定义产品」到「定义时代」
  • TRO'25开源|机器人建图的终局?一个框架搞定光学、几何与语义!
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元
  • 蔚来,破 4 万!
  • 今年双十一最大的赢家是这张表
  • 复旦大学&StepFun提出WithAnyone:告别“复制粘贴脸”,实现可控、高保真的多人ID一致性生成
  • 大道至简,中科院等提出OneRef:统一视觉定位和指代分割
  • 极客公园创新大会 2026 首批嘉宾揭晓!
  • 北京内推 | 美团招聘大模型算法实习生(IM全渠道)
  • 达摩院联合浙大、港理工推出PixelRefer:多模态大模型迈向像素级视觉理解
  • 自回归不必按token算了:微信AI × 清华用CALM直接「整段」预测
  • Altman 怒喷 OpenAI 唱衰者;小鹏发布新一代人形机器人 IRON;苹果支付 10 亿美金,新 Siri 将引入谷歌 Gemini|极客早知道

AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”

原创 让你更懂AI的 2025-11-12 18:11 北京

联邦学习个性化视觉-语言融合新框架

在推荐系统中,同时利用图像和文本信息来理解物品早已不是新鲜事。但如果场景换成联邦学习,即所有用户数据都必须保留在本地设备上,我们该如何高效地融合这些多模态信息,并为每个用户提供个性化的服务呢?

这是一个棘手的问题。目前主流的联邦推荐,要么干脆只用交互 ID,牺牲了内容信息;要么就制定一套“一刀切”的融合规则,让所有用户以相同的方式去理解图文。

但现实是,用户间的偏好差异巨大:有人更依赖图片,有人更在乎文字描述,还有人更信赖协同信号。这种“融合偏好”的异质性,恰恰是影响个性化体验的关键。

为了解决这个问题,悉尼科技大学与香港理工大学的研究者提出了 FedVLR 框架。它的核心思路非常直接:既然融合偏好因人而异,那就把融合的决策权交给用户端侧,同时把计算量大的工作留在服务器。

论文标题:

Federated Vision-Language-Recommendation with Personalized Fusion

论文链接:

https://arxiv.org/abs/2410.08478

代码链接:

https://github.com/mtics/FedVLR

本文已被 AAAI 2026 接收为口头报告(Oral Acceptance)。

FedVLR 的工作逻辑:“服务器预加工 + 客户端个性化组合”

FedVLR 巧妙地设计了一种双层融合机制,清晰地划分了服务器和客户端的职责:

1. 服务器端:多视图“预融合”(Pre-Fusion)

联邦学习中,物品的图文内容(如商品图、描述文字)通常存储在服务器。FedVLR 的服务器不会直接把原始特征发给客户端。

相反,它会先利用强大的视觉-语言(V-L)模型(如 CLIP)进行密集的特征提取,然后通过一组不同的融合算子,将图、文、ID 等信息加工成若干种“候选融合视图(Pre-fused Views)”。

可以理解为,服务器预先准备了几种不同侧重点的物品表示方案(比如“侧重视觉的”、“侧重文本的”、“图文均衡的”等),并把这个计算量最大的步骤在云端完成。

2. 客户端:轻量级“个性化精炼”(Personalized Refinement)

当客户端(例如用户的手机)需要进行训练或推理时,它会从服务器获取这些“候选视图”。

接着,关键一步来了:客户端会根据本地存储的用户历史交互数据(这些数据永远不会离开设备),启用一个非常轻量级的本地模块(具体实现为 Mixture-of-Experts 路由器)。这个模块的唯一任务就是动态地决定如何加权组合那些来自服务器的“候选视图”。

例如,如果本地数据显示该用户对视觉信息更敏感,那么“侧重视觉的”视图就会被分配更高的权重。

最终,每个用户都在自己的设备上,生成了专属的、个性化的物品表示。

一个“即插即用”的增强层

FedVLR 的设计定位并非要推翻现有的联邦推荐算法(如 FedMF,FedNCF 等),而是作为一个可插拔的增强层

它可以无缝地“挂载”到各种以 ID 为主的联邦推荐框架上,使其在不改变原有联邦优化流程(如 FedAvg)的前提下,立刻拥有感知内容和个性化融合的能力

这对工程落地非常友好,因为它意味着:

  • 通信开销不变:客户端上传的依然是梯度或小模型,与标准联邦学习一致。

  • 隐私边界清晰:个性化参数和用户数据严格保留在本地,不上传。

  • 兼容性强:可以和差分隐私(DP)等现有的隐私增强技术叠加使用。

  • 端侧负担小:客户端新增的只是一个轻量的路由模块,计算开销可控。

实验效果如何?

研究团队在电商、电影、短视频等多个公开数据集上进行了验证。

结果显示,无论 FedVLR 挂载到哪种联邦算法基线上,都能带来持续且稳定的排序指标提升(如 NDCG 和 HR)。

一个重要的发现是,在数据稀疏的场景下,个性化融合带来的改进尤其明显。这表明 FedVLR 能够更有效地利用有限的本地数据来理解内容,在某些条件下甚至缩小了与中心化训练模型的差距。

总结

FedVLR 针对联邦学习中“个性化”与“多模态”难以兼顾的痛点,提供了一个实用且高效的解决方案。

它通过“服务器预融合、客户端精炼”的架构,在严格保护隐私的前提下,成功地将“融合图文”这一决策本身个性化,让推荐系统真正做到“因人而异”地理解内容。

对于希望在保护用户隐私的同时、提升内容推荐质量的业务来说,FedVLR 提供了一个低成本、易部署的升级路径。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们