智源TALK｜多模态效率提升至19倍，视频理解前沿进展，伯克利MIT英伟达-平芜编程栈

报告主题：伯克利&MIT&英伟达：通过自回归眼动实现高效可扩展的视频理解

报告日期：05月12日（周二） 10:30-11:30

报告要点：

多模态大语言模型在视频理解上进展显著，但处理长时长高分辨率视频时仍面临效率瓶颈：现有模型对所有像素一视同仁，忽略海量时空冗余。智源Talk359期邀请了 Physical Intelligence 史百丰线上分享《Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing》。提出AutoGaze轻量级模块，采用自回归眼动方式主动移除冗余视觉 patch，可将 token 数减少 4 至 100 倍、推理速度最高提升 19 倍，使模型首次支持 1000 帧 4K 视频理解，并推出首个高分辨率长视频问答基准 HLVid。欢迎讨论交流。

论文地址：https://arxiv.org/abs/2603.12254v1

议题详情：

多模态大语言模型（MLLMs）在通用视频理解方面取得了显著进展，但在处理长时长、高分辨率视频时仍面临效率瓶颈：现有视觉Transformer（ViT）和MLLM通常对所有像素一视同仁地进行计算，忽略了视频中大量存在的时空冗余信息。为此，我们提出 AutoGaze，一个轻量级模块，可在输入送入ViT或MLLM之前主动移除冗余视觉patch。

AutoGaze 通过下一词预测与强化学习进行训练，采用自回归眼动（autoregressive gazing）方式，在用户指定的重建误差阈值下，动态选择最少量的多尺度patch，以尽可能完整地重建视频内容，在保留关键信息的同时大幅减少冗余计算

实验结果表明，AutoGaze 可将视觉token数量减少 4倍至100倍，并使ViT与MLLM推理速度提升最高 19倍，从而支持模型处理 1000帧、4K分辨率的超长视频，并在多个视频基准测试中取得领先表现（例如在 VideoMME 上达到 67.0%）。此外，我们还提出了首个高分辨率长视频问答基准 HLVid，包含时长5分钟、4K分辨率的视频；结合 AutoGaze 扩展后的MLLM相较基线提升 10.1%，并超过此前最佳模型 4.5%。

报告嘉宾：

史百丰博士在 Physical Intelligence 担任 Member of Technical Staff，主要从事基础计算机视觉与机器人模型的研究。他于 2026 年在加州大学伯克利分校获得博士学位，师从 Trevor Darrell 教授。在计算机视觉、机器学习与机器人学习领域的 CVPR、ICCV、ECCV、ICLR、ICML、NeurIPS、CoRL 等顶级会议上发表论文近 20 篇，并多次被评为口头报告/亮点论文。

电脑端观看地址

第八届智源大会相约6月12日-13日

解决RK3568平台GC2093摄像头AE闪烁与过曝：实战调试参数详解（附避坑指南）

RK3568平台GC2093摄像头AE参数深度调试指南：从闪烁到过曝的实战解决方案当你在RK3568平台上调试GC2093摄像头时，是否遇到过这样的场景：明明硬件连接正确，驱动加载正常，但画面总是出现AE闪烁、顺光过曝或者收敛速度慢得…

李华

2026食品包装设计公司靠谱不贵推荐，食品厂家做包装高性价比优选

2026食品包装设计公司靠谱不贵推荐，食品厂家做包装高性价比优选食品行业做包装，和其他品类完全不一样，不仅要颜值好看、货架吸睛，更要严格符合食品安全生产规范、材质合规、标注合规、量产好落地。很多食品工厂、中小食品品牌踩坑…

李华

DS4Windows终极指南：如何让PS4手柄在Windows上完美运行游戏 [特殊字符]

DS4Windows终极指南：如何让PS4手柄在Windows上完美运行游戏 🎮 【免费下载链接】DS4Windows Like those other ds4tools, but sexier 项目地址: https://gitcode.com/gh_mirrors/ds/DS4Windows 还在为PS4手柄在Windows电脑上连接困难、游戏不识别…