news 2026/1/18 5:30:51

加速流式视频理解!上交团队实现ViT编码与LLM预填充双重加速

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
加速流式视频理解!上交团队实现ViT编码与LLM预填充双重加速

随着多模态大模型的爆发,视频理解(Video Understanding)正从离线走向实时流式。然而,高昂的视觉编码成本和不断膨胀的 Token 序列成为了实时部署的拦路虎。

近日,上海交通大学 EPIC Lab 团队提出了一种名为 STC(Streaming Token Compression)的即插即用分层加速框架。

该方法无需重新训练,即可无缝集成到现有的流式 VideoLLM 中,通过 STC-Cacher 和 STC-Pruner 两个模块,分别在 ViT 编码阶段和 LLM 预填充阶段消灭冗余,实现了速度与精度的完美平衡。

论文标题:

Accelerating Streaming Video Large Language Models via Hierarchical Token Compression

作者机构:

上海交通大学 EPIC Lab 等

论文链接:

https://arxiv.org/pdf/2512.00891

代码地址:

https://github.com/lern-to-write/STC

背景:流式视频理解的“两座大山”

在增强现实(AR)眼镜、实时体育解说等应用场景中,模型需要像人类一样连续不断地处理视频流并即时响应。

然而,现有的视频大模型(VideoLLMs)在面对这种流式视频理解(Streaming Video Understanding,SVU)任务时,面临着两大计算瓶颈:

1. ViT 编码的重复计算:在流式输入中,相邻帧往往高度相似(如背景静止),但传统的 Vision Transformer(ViT)依然会对每一帧进行完整的计算,造成巨大的资源浪费。

2. LLM 预填充的 Token 爆炸:随着视频时长的增加,累积的视觉 Token 数量呈线性增长,导致 LLM 的预填充(Pre-filling)阶段延迟飙升,显存不堪重负。

〓 图1:不同视觉任务中的推理时间分布。可以看出,在视频理解任务中,ViT 编码占据了绝大部分的推理时间,远超图像理解任务。

其中,如图 1 所示,ViT 时长在视频理解任务中占据大量时间,而现有 token 压缩方法(如 VisionZip、VidCom²)仅聚焦于上下文压缩,仅能实现 LLM 预填充加速,忽略了视频理解任务中 ViT 编码效率低下的问题。

此外,研究团队还深入分析了流式视频的特性,图 2 发现流式视频中存在极高的时间冗余(Temporal Redundancy)。

〓 图2:离线和在线视频理解时间维度上特征冗余性对比。可以看出,在线视频理解时间冗余性远超离线视频理解。

基于此,团队针对流式视频理解的特性,提出了一种即插即用专门针对流式视频理解的加速 STC 框架,可无缝集成到如 Dispider、LiveCC、StreamForest、ReKV 等主流流式视频理解模型中,实现即插即用推理加速!

方法:STC(Streaming Token Compression)

STC 是一个分层的加速框架,它包含两个正交但互补的模块,分别针对上述两个瓶颈进行优化。

〓 图3:STC 框架概览。它由作用于 ViT 内部的 STC-Cacher 和作用于 LLM 输入前的 STC-Pruner 组成,共同实现全链路加速。

💡 模块一:STC-Cacher(缓存加速器)——“既然没变,何必重算?”

STC-Cacher 旨在解决 ViT 编码阶段的冗余。

挑战:视频流中相邻帧之间往往存在大量重复背景,对每一帧都进行全量计算是巨大的资源浪费。

创新:利用帧间相似性,提出一种基于“缓存-复用”的稀疏计算策略。

〓 图4:STC-Cacher 的部分计算机制。在参考帧进行缓存,在非参考帧进行复用以跳过部分计算。

机制:图 4 展示了 STC-Cacher 加速 ViT 编码的过程:

  • 参考与缓存:对关键帧进行全量计算,将特征(K, V 等)存入缓存。

  • 筛选与复用:在后续帧中,通过计算相似度区分区域。静态背景直接复用缓存特征,跳过计算(图5);

  • 稀疏计算:仅对变化剧烈的动态 Token(如移动物体)进行重计算,最后将新旧特征“散射”融合,生成完整特征图。

〓 图5:STC-Cacher 的工作机制可视化。模型能够自动识别出画面中变化的区域(如运动的人物),并仅对这些区域进行重计算,静态背景则直接复用。

✂️ 模块二:STC-Pruner(双锚点剪枝器)——“只留精华,去其糟粕”

即便 ViT 加速了,生成的 Token 数量依然庞大。STC-Pruner 旨在压缩进入 LLM 前的 Token 序列。

  • 挑战:在流式场景下,我们无法预知未来的帧,也不知道用户的具体问题(Query-agnostic),因此传统的基于 Query 的剪枝方法失效。

  • 创新:提出双锚点(Dual-Anchor)评分机制。

  1. 时间锚点(Temporal Context Anchor):代表历史记忆的平均状态。

  2. 空间锚点(Spatial Context Anchor):代表当前帧的全局信息。

〓 图6:STC-Pruner 的双锚点剪枝机制。通过同时衡量 Token 在时间和空间维度上的新颖性(Novelty),精准筛选出最具信息量的 Token 输入 LLM。

  • 机制:一个 Token 只有在既不同于历史记忆(新的时间信息),又不同于当前全局背景(显著的空间信息)时,才被判定为高价值 Token 并保留。

实验结果:速度与精度的双赢

表 1-3 的实验结果表明,STC 框架在流式与离线视频理解任务上均能大幅提升效率的同时,几乎完美保留了模型性能。

  • STC在流式视频理解(OVOBench、StreamingBench)与长视频理解(VideoMME、EgoScheme、MLVU)上展现出了强大的性能与加速效果。

  • 横向对比 ToMe、VisionZip、VidCom² 等现有压缩方法,STC 在各项指标上均取得了 SOTA 的成绩。

  • 特别地,在 ReKV 框架上,STC 处理流式视频时,可将 ViT 编码延迟降低 24.5%,LLM 预填充延迟降低了 45.3%,同时保留了高达 99% 以上的准确率。

〓 表1:在 OVO-Bench 上的综合评测结果。STC 方案(最后一行)在保持高精度的同时,显著降低了延迟。

〓 表2:在 StreamingBench 上的综合评测结果

〓 表3:在离线视频理解数据集上的综合评测结果

总结

STC 提供了一种全新的流式视频理解加速范式。它不仅是一个高效的压缩算法,更是一个即插即用(Plug-and-Play)的通用框架。

无论是端到端的在线模型(如Dispider、StreamForest),还是离线转在线的框架(如 ReKV),STC 都能轻松集成,为视频大模型的实时落地扫清了障碍。

目前代码已开源,欢迎大家 Star 🌟 和试用!后续将陆续开源所有评测、baseline、以及效率分析的所有代码。

👉 Github:

https://github.com/lern-to-write/STC

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/15 13:08:31

如何实现TensorRT推理服务的权限控制?

如何实现TensorRT推理服务的权限控制? 在AI模型大规模部署到生产环境的今天,一个典型的矛盾日益凸显:我们既需要像 TensorRT 这样的高性能推理引擎来压榨GPU算力、降低延迟,又必须面对多租户共享资源下的安全挑战——如何防止未经…

作者头像 李华
网站建设 2026/1/14 16:10:31

使用TensorRT优化语音合成模型的端到端延迟

使用TensorRT优化语音合成模型的端到端延迟 在智能客服、有声读物和车载语音助手等实时交互场景中,用户对“说话即听音”的响应速度要求越来越高。一个理想的语音合成系统,不仅要音质自然,更要在百毫秒内完成从文本输入到音频输出的全流程。然…

作者头像 李华
网站建设 2026/1/17 5:31:50

STM32F4 USB2.0固件库开发入门必看教程

手把手教你用STM32F4实现USB通信:从协议到代码的完整实践 你有没有遇到过这样的场景? 项目需要让单片机和电脑传数据,串口不够用、蓝牙延迟高、Wi-Fi功耗大。这时候,一个最自然的想法冒出来: 能不能让STM32自己变成…

作者头像 李华
网站建设 2026/1/12 5:45:56

图解说明Keil5代码自动补全设置全过程(STM32适用)

图解说明Keil5代码自动补全设置全过程(STM32适用)在嵌入式开发的世界里,尤其是使用STM32系列微控制器的项目中,Keil MDK依然是许多工程师的首选集成开发环境。尽管它不像 VS Code 那样“炫酷”,但其稳定性、与 ARM 编译…

作者头像 李华
网站建设 2026/1/16 13:41:54

Scarab模组管理器:空洞骑士玩家的终极模组安装解决方案

Scarab模组管理器:空洞骑士玩家的终极模组安装解决方案 【免费下载链接】Scarab An installer for Hollow Knight mods written in Avalonia. 项目地址: https://gitcode.com/gh_mirrors/sc/Scarab 还在为空洞骑士模组安装的复杂流程而烦恼吗?Sca…

作者头像 李华
网站建设 2026/1/4 12:07:33

ViGEmBus虚拟手柄驱动完整配置指南:5步实现专业级游戏控制体验

ViGEmBus虚拟手柄驱动完整配置指南:5步实现专业级游戏控制体验 【免费下载链接】ViGEmBus 项目地址: https://gitcode.com/gh_mirrors/vig/ViGEmBus ViGEmBus虚拟手柄驱动是Windows平台下革命性的游戏控制器模拟解决方案,为玩家和开发者提供专业…

作者头像 李华