news 2026/5/1 3:12:23

智源TALK|多模态效率提升至19倍,视频理解前沿进展,伯克利MIT英伟达

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
智源TALK|多模态效率提升至19倍,视频理解前沿进展,伯克利MIT英伟达

报告主题:伯克利&MIT&英伟达:通过自回归眼动实现高效可扩展的视频理解

报告日期:05月12日(周二) 10:30-11:30

报告要点:

多模态大语言模型在视频理解上进展显著,但处理长时长高分辨率视频时仍面临效率瓶颈:现有模型对所有像素一视同仁,忽略海量时空冗余。智源Talk359期邀请了 Physical Intelligence 史百丰线上分享《Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing》。提出AutoGaze轻量级模块,采用自回归眼动方式主动移除冗余视觉 patch,可将 token 数减少 4 至 100 倍、推理速度最高提升 19 倍,使模型首次支持 1000 帧 4K 视频理解,并推出首个高分辨率长视频问答基准 HLVid。欢迎讨论交流。

论文地址:https://arxiv.org/abs/2603.12254v1

议题详情:

多模态大语言模型(MLLMs)在通用视频理解方面取得了显著进展,但在处理长时长、高分辨率视频时仍面临效率瓶颈:现有视觉Transformer(ViT)和MLLM通常对所有像素一视同仁地进行计算,忽略了视频中大量存在的时空冗余信息。为此,我们提出 AutoGaze,一个轻量级模块,可在输入送入ViT或MLLM之前主动移除冗余视觉patch。

AutoGaze 通过下一词预测与强化学习进行训练,采用自回归眼动(autoregressive gazing)方式,在用户指定的重建误差阈值下,动态选择最少量的多尺度patch,以尽可能完整地重建视频内容,在保留关键信息的同时大幅减少冗余计算

实验结果表明,AutoGaze 可将视觉token数量减少 4倍至100倍,并使ViT与MLLM推理速度提升最高 19倍,从而支持模型处理 1000帧、4K分辨率 的超长视频,并在多个视频基准测试中取得领先表现(例如在 VideoMME 上达到 67.0%)。此外,我们还提出了首个高分辨率长视频问答基准 HLVid,包含时长5分钟、4K分辨率的视频;结合 AutoGaze 扩展后的MLLM相较基线提升 10.1%,并超过此前最佳模型 4.5%。

报告嘉宾:

史百丰博士在 Physical Intelligence 担任 Member of Technical Staff,主要从事基础计算机视觉与机器人模型的研究。他于 2026 年在加州大学伯克利分校获得博士学位,师从 Trevor Darrell 教授。在计算机视觉、机器学习与机器人学习领域的 CVPR、ICCV、ECCV、ICLR、ICML、NeurIPS、CoRL 等顶级会议上发表论文近 20 篇,并多次被评为口头报告/亮点论文。

电脑端观看地址



第八届智源大会 相约6月12日-13日

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 3:03:50

2026食品包装设计公司靠谱不贵推荐,食品厂家做包装高性价比优选

2026食品包装设计公司靠谱不贵推荐,食品厂家做包装高性价比优选食品行业做包装,和其他品类完全不一样,不仅要颜值好看、货架吸睛,更要严格符合食品安全生产规范、材质合规、标注合规、量产好落地。很多食品工厂、中小食品品牌踩坑…

作者头像 李华
网站建设 2026/5/1 3:02:03

“系统整容包”小工具,专治Win11各种不服!

昨天帮我妈弄电脑,她死活找不到“我的电脑”。原来Win11桌面默认不显示这些图标,老人家急得直拍显示器。我用这小工具一键给她安排上,老太太瞬间眉开眼笑。突然觉得,科技再怎么发展,顺手才是王道。咱就是说&#xff0c…

作者头像 李华
网站建设 2026/5/1 2:55:25

DASH技术:LLM确定性训练的革命性突破

1. 项目概述:DASH如何革新LLM确定性训练在大型语言模型(LLM)训练领域,确定性计算一直是个令人头疼的难题。想象一下,当你花费数百万美元训练一个模型时,却发现每次运行得到的结果都有微小的差异——这就像试…

作者头像 李华