动态列表

  • 乔纳森下一个iPhone神话,要黄了?OpenAI秘密AI硬件深陷三重困境
  • 3年手搓ChatGPT!剑桥天才少年在Minecraft游戏中爆火回归
  • 一举击败Claude Code!微软提出代码生成黑科技:一键直出36K行代码
  • 刚刚,2025年诺贝尔生理学或医学奖揭晓!三位得主点燃器官移植希望
  • OpenAI入股AMD,股价暴涨35%!奥特曼左手黄仁勋,右手苏姿丰,通吃全球算力
  • 自进化Agent的第三种可能:隐式记忆,不动模型参数,胜过GRPO
  • 真实数据、全链路、可复核:GenoMAS打造更可信的基因分析智能体
  • NeurIPS 2025 | 高通提出GCL:无需额外数据,通用多模态检索迎来“一统江湖”新范式
  • NeurIPS 2025 | 慕尼黑工业大学提出SIM(3)等变网络:让3D形状补全告别“姿态偏见”,实现跨域泛化
  • 今日迎本世纪「最晚中秋月圆」;雷军:小米17 五天销量破百万;ChatGPT 或添私信聊天功能
  • 腾讯王者归来:混元图像3.0登顶LMArena!一手实测全球最强图像AI
  • AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密
  • 最新,2025诺奖预测出炉!中国科学家有望拿下化学奖?
  • 奥特曼:感受不到GPT-5变强,是因为你还不够「专业」
  • GPT-6或将比GPT-5强10倍!奥特曼揭秘ChatGPT如何诞生
  • “移步换景”一试,大模型全乱了:OST-Bench揭示MLLM时空推理短板
  • NeurIPS 2025 | AI也能做数学建模?本科生携手MM-Agent勇夺美赛全球前2%
  • LSTM之父再出手!xLSTM挑战Transformer:一场关于Scaling Laws的正面交锋
  • 微软下架「炉石」等多款游戏;华为云:华为算力效能超英伟达芯片 3 倍;马斯克回应特斯拉机器人打拳:并非遥控
  • 陶哲轩联手GPT-5,1小时攻克数学难题!全程无需编码,OpenAI副总惊呼
  • 1亿签约金抢AI大神?谷歌AI元老劝退全网:别再读博了!
  • 三天逆袭,Sora登顶美榜!15秒大片玩疯奥特曼,全网直呼真假难辨
  • 10个Agent一键组队:并行智能体协作,端到端交付从24h缩减到4h!
  • 首位AI女演员出道!好莱坞「天敌」来了,下一代偶像全是代码制造?
  • 南理工提出FMC-DETR:巧用“频率解耦”,航拍小目标检测精度飙升8.2% AP50
  • 网红挑战特斯拉FSD穿越美国出车祸;小米回应「小米汽车突然自己开走」;Sora 登顶美区苹果商城免费榜
  • 刚刚,Anthropic紧急换帅!新任CTO执掌算力命脉,直面OpenAI千亿赌局
  • Gemini 3.0 Pro内测流出,编程实力惊人!下周上线
  • 刚刚,奥特曼首曝:AI取代CEO后,我想去当农民!
  • 华人主导谷歌SLED,论文登顶会!一键让模型学会自救
  • LeCun考虑辞职!Meta AI百亿豪赌引爆「内战」,逼走首席科学家
  • NeurIPS 2025 | RAD:基于大规模3DGS孪生数字世界的端到端强化学习训练策略
  • 小米 17 系列销量超百万;苹果新产品泄密源头疑为越南工厂;低价版 model Y 现身官网代码|极客早知道
  • 刚刚,这家0产品0模型就估值854亿的公司,终于发布了首款产品!
  • 刚刚,奥特曼亲赴,韩国「举国」投靠!
  • 奥特曼「一张脸」引爆全球狂欢!Sora 2冲上APP榜第三,邀请码炒到1250元
  • 60岁老人AI养生三个月吃进医院!「AI精神病」全球扩散,OpenAI急招医生
  • 一杯咖啡,3亿美金!斯坦福天才少女退学创业,Meta AI大牛排队加入
  • 武大新作MASt3R-Fusion:融合IMU与GNSS,为新一代视觉SLAM注入“多感官”智慧
  • 中科大、清华、快手等发布OpenGPT-4o-Image:为多模态AI打造的“超级燃料”,图像编辑性能提升18%
  • 历史首位,马斯克身家突破 5000 亿美元;王腾注销、清空多个社媒账号;美国演员工会抵制 AI 演员
  • 刚刚,OpenAI Sora 2重磅登场!首个APP上线,或将成为AI时代新TikTok
  • Sora 2全网疯狂实测:以假乱真、脑洞大开、虚实难分|附首个APP教程和邀请码
  • OpenAI和DeepMind大佬离职联手,誓用AI科学家实现室温超导!已融3亿美元
  • 南洋理工联合商汤提出Visual Jigsaw:像玩拼图一样,显著提升多模态大模型的视觉理解力
  • 天津大学联合腾讯提出Wan-Alpha:一键生成高质量透明视频,发丝级抠图不再是梦
  • OpenAI 深夜重磅推出新视频模型和独立 App;英伟达市值突破4.5万亿美元;特斯拉预计推出第三代人形机器人 | 极客早知道
  • 刚刚!软银系创始人4个月打造机器人超级黑马,获2轮近亿元融资
  • 博士生,当代最穷科研民工?Nature最新调查:不涨工资,我们就跑路了
  • Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调
  • AI改造出行体验:滴滴的试验能否开启行业范式转变?
  • GPT-5「降智」真相曝光:不是变笨,而是五个超级开关没激活
  • OpenAI 刚刚发布了属于 AI 的抖音,还有 Sora 2
  • YOLO26首份学界评论:端到端无NMS,目标成为边缘设备实时目标检测新标杆
  • NeurIPS 2025 | 清华大学与华为等提出全新正则化方法,破解稀疏视图3DGS“协同适应”难题
  • DeFacto:用强化学习治愈AI幻觉,让多模态模型“有据可查”
  • 榜一换人!OCRBench v2九月新榜:揭示多模态大模型文档智能真实水平
  • 把“俄罗斯方块”搬进设计室:物竞天择让振动微型机器人进化得越跑越快
  • LoRA到底能否媲美全参?Thinking Machines用实验曲线划出「无悔区」
  • DeepSeek V3.2 发布,API 成本减半;特斯拉员工被机器人打伤,索赔 5100 万美元;Claude 新模型登场

宾大提出F³:事件相机迎来“预测性”表征新范式,光流、分割、深度全SOTA!

CV君 2025-10-05 22:42 江苏

F³将稀疏事件流编码为密集特征图,速度高达440Hz,下游任务性能全面领先。

今天想和大家聊聊一种非常酷的传感器——事件相机(Event Camera),以及一篇来自宾夕法尼亚大学的最新研究,它为处理这类独特数据提出了一种极具启发性的新方法。

事件相机和我们手机、相机里常见的传统相机很不一样。传统相机像一个固定的“帧”画家,每隔一段时间(比如1/30秒)就“画”一幅完整的图像。而事件相机则更像一个高度敏感的“变化捕捉者”,它没有固定的帧率,只有当视野中某个像素的亮度发生变化时,它才会记录下一个“事件”——包含时间戳、像素坐标和亮度变化方向(变亮或变暗)。

这种特性使得事件相机在处理高速运动场景时几乎没有运动模糊,并且拥有极高的时间分辨率和动态范围,在光线剧烈变化的环境下也能稳定工作。但它的输出是稀疏、异步的数据流,如何从中高效地提取有用的信息,一直是计算机视觉领域的一个挑战。

这篇名为 《Fast Feature Field (F³): A Predictive Representation of Events》 的论文,就为我们带来了一个优雅的解决方案。

F³:通过“预测未来”学习事件表征

作者们提出了一个非常巧妙的思路:一个好的事件数据表征,应该蕴含足够的信息来预测未来即将发生的事件。基于这个思想,他们设计了名为 快速特征场(Fast Feature Field, F³) 的模型。

上图直观展示了F³的核心思想和效果。它像生物视网膜一样,将原始、稀疏的事件信号(B)处理成更高级、更鲁棒的特征(C),能够直接用于各种下游视觉任务,并在分割、光流和深度估计等任务上取得了优异成果(D)。

F³的核心任务是一个自监督学习过程:利用过去的事件(e-)来预测未来的事件(e+)

具体来说,它的网络架构设计得相当高效:

F³的整体架构如上图所示。它首先使用一个哈希编码器(Hash Encoder)来处理过去一段时间内(t-Δt 到 t)的事件时空坐标,然后通过时间池化和空间平滑,最终在每个像素位置(u)和当前时间(t)生成一个多通道的特征向量 F³(t, u)。这个特征向量就是对该时空区域事件信息的浓缩表示。整个模型通过一个简单的线性层(ψ)来预测未来事件,并使用Focal Loss进行训练。

这种设计的最大优势在于,它将稀疏、异步的事件流转换成了一个密集的、多通道的“特征图像”。这个特征图像保留了场景的结构和运动信息,可以直接输入到任何为标准图像设计的计算机视觉算法中,极大地拓宽了事件相机的应用范围。

更关键的是,得益于多分辨率哈希编码(multi-resolution hash encoding)等技术的运用,F³的计算速度极快,在高清(HD)分辨率下能达到 120 Hz,在VGA分辨率下更是高达 440 Hz

全方位领先的实验结果

为了验证F³的实力,研究者们在各种极具挑战性的场景下进行了测试,涵盖了不同的机器人平台(汽车、四足机器人、无人机)、不同的光照条件(白天、夜晚)和不同的环境(室内、室外、城市、越野)。

实验所用的数据集来源非常广泛,确保了模型的泛化能力。

F³在三大主流视觉任务上都展现了当前最佳(SOTA)的性能。

光流估计

在光流估计任务中,F³能够准确地捕捉场景的运动信息。从定性结果来看,F³生成的光流场(下图左)相比其他方法(中、右)更加平滑和准确。

定量的比较也证实了这一点,在DSEC等主流数据集上,F³的平均终点误差(EPE)显著低于之前的方法。

语义分割

将F³特征输入到分割模型中,它同样表现出色。下图展示了在M3ED数据集上的定性结果,可以看到F³能够清晰地分割出道路、车辆、行人等不同的类别。

在DSEC数据集上的定量结果显示,F³在平均交并比(mIoU)指标上大幅领先。

单目深度估计

F³同样可以用于单目深度估计,并且能够生成高质量的深度图。在MVSEC等数据集上,它的性能也超越了现有的方法。

最令人印象深刻的是,基于F³的下游任务推理速度同样很快,在高清分辨率下可以达到 25-75 Hz,这对于需要实时响应的机器人应用来说至关重要。

总结

CV君认为,F³这项工作最大的亮点在于它找到了一个非常优雅和高效的方式来“解锁”事件数据中蕴含的丰富信息。通过“预测未来”这样一个简单的自监督任务,模型被迫学习到了场景的内在结构和动态变化,从而生成了高质量的通用特征。

这种“化繁为简”的思路,将复杂的异步稀疏数据流问题,转换为了我们所熟悉的密集图像特征处理问题,为事件相机在自动驾驶、机器人、无人机等领域的广泛应用铺平了道路。它不仅性能卓越,而且速度飞快,展现了巨大的实际应用潜力。

大家对这种通过预测来学习表征的方法怎么看?你觉得它未来还能用在哪些有趣的场景?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们