news 2025/12/24 21:56:23

百度新作FVAR:通过下一焦点预测实现视觉自回归建模

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
百度新作FVAR:通过下一焦点预测实现视觉自回归建模

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!

Visual Autoregressive Modeling via Next Focus Prediction

作者团队 | Baidu Inc.

论文:https://arxiv.org/abs/2511.18838

研究背景

近日,百度研究团队在视觉自回归生成领域取得重要突破,提出了一种全新的自回归图像生成框架 FVAR(Focus Visual AutoRegressive)。该工作将传统的「下一尺度预测」范式重新定义为「下一焦点预测」,模拟相机从模糊到清晰的自然对焦过程。

核心贡献:

1. 下一焦点预测范式:突破性地将多尺度自回归从简单下采样转变为渐进式光学重新聚焦,从根本上消除混叠伪影(锯齿、摩尔纹等)。

2. 渐进式重新聚焦金字塔:使用物理一致的散焦核(PSF)构建无混叠的多尺度表示,实现从模糊到清晰的平滑过渡。

3. 高频残差教师网络:通过专门的教师-学生蒸馏框架,在训练时利用高频信息增强细节生成,部署时零额外开销。

实验表明,FVAR 在 ImageNet 多个分辨率上显著超越 VAR 和 M-VAR,同时保持与现有 VAR 框架的完全兼容性。

图1. FVAR 生成的图像质量显著优于标准 VAR,有效减少锯齿和摩尔纹等混叠伪影,同时保留精细细节和文字可读性。

1. 简介

视觉自回归模型(VAR)通过多尺度 token 金字塔上的下一尺度预测,已经展现出卓越的图像生成质量和可扩展性。然而,传统方法使用均匀下采样来构建这些金字塔,不可避免地引入混叠伪影——锯齿边缘、阶梯效应和摩尔纹等问题。

这些伪影的产生源于高频内容超过奈奎斯特极限后被折叠到基带中,迫使自回归 Transformer 同时承担去混叠和生成细节的双重任务。

本文从物理光学的角度出发,受相机对焦过程的启发,提出将视觉自回归从「下一尺度预测」重新定义为「下一焦点预测」。核心洞见在于:图像形成过程本质上是从模糊到清晰的渐进聚焦,而非通过有损分辨率降低的下采样。

2. 相关工作

2.1 视觉自回归生成

自回归模型将图像离散化为 codebook 索引,以 GPT 风格预测 token 序列。最近的 VAR 模型将自回归重新定义为多尺度 token 金字塔上的下一尺度预测,展现出优于扩散模型的可扩展性。后续工作如 M-VAR 通过解耦尺度内/尺度间依赖进一步提升效率。然而,这些方法都依赖均匀下采样构建多尺度表示,忽视了光学成像的物理原理。

2.2 抗混叠与去摩尔纹

混叠伪影源于高频图像内容超出采样能力(违反奈奎斯特准则),导致信号折叠到低频。在图形渲染和图像处理中,经典抗混叠技术(超采样、形态学抗混叠)通过在下采样前进行预滤波来缓解锯齿边缘。然而,较少工作在生成流程中明确处理混叠问题,尤其是视觉自回归模型。这正是 FVAR 的创新点所在。

3. 方法

FVAR 包含三个核心创新:(1) 下一焦点预测范式、(2) 渐进式重新聚焦金字塔构建、(3) 高频残差学习。

图2. 渐进式重新聚焦 vs 均匀下采样。(左)标准 VAR 使用均匀下采样,引入混叠伪影。(右)FVAR 采用 PSF 半径递减的渐进式重新聚焦,模拟相机从模糊到清晰的对焦过程。

3.1 下一焦点预测范式

我们提出从基于尺度到基于焦点的自回归范式转变。这种形式具有以下理论优势:

1.频谱保持:每个焦点状态受 PSF 频率响应限制,防止混叠伪影

2.连续性:焦点序列在模糊核空间形成连续流形,实现状态间平滑插值

3.信息单调性:信息内容随 ρ_k → 0 单调增加,与自回归生成过程一致

3.2 渐进式重新聚焦金字塔

圆形光圈的散焦 PSF 近似为归一化圆盘核 k_ρ,半径遵循单调递减调度,确保从 ρ_1 > ρ_2 > ... > ρ_K = 0 的平滑模糊到清晰过渡。

为捕获整体结构和高频残差信息,我们构建互补视图的双路径策略:L_k 表示物理一致的聚焦视图,D_k 为传统下采样视图,A_k 为高频残差信息。

3.3 高频残差教师网络

图3. 高频残差教师训练架构。训练时采用双网络:高频残差教师(上)通过 Alias-Gate 交叉注意力处理结构 token 和混叠 token;部署网络(下)仅使用结构 token 以保持与原生 VAR 的兼容性。

我们引入高频残差教师网络,将训练时的混叠感知学习与推理解耦:

• 使用双路径策略对聚焦视图和高频残差进行分词

• 混叠 codebook 远小于结构 codebook,反映高频模式的稀疏特性

• 教师网络通过 Alias-Gate Cross-Attention (AG-XAttn) 融合两路信息

• 部署网络仅在结构 token 上操作标准自注意力,保持与 VAR 完全兼容

推理时仅使用部署网络,无任何额外开销。

4. 实验结果

4.1 主要结果

在 ImageNet 256×256 上,FVAR 在所有模型规模上均一致优于 VAR 和 M-VAR:

模型

FID↓

IS↑

Precision↑

Recall↑

参数量

VAR-d16

3.55

280.4

0.84

0.51

310M

M-VAR-d16

3.07

294.6

0.84

0.53

464M

FVAR-d16

2.89

298.1

0.85

0.54

310M

VAR-d24

2.33

312.9

0.82

0.59

1.0B

M-VAR-d24

1.93

320.7

0.83

0.59

1.5B

FVAR-d24

1.75

325.8

0.84

0.61

1.0B

4.2 可视化比较

图4. VAR 与 FVAR 的视觉质量对比。第一行为图像生成,第二行为 inpainting 和 outpainting。每组中左侧为 VAR,右侧为 FVAR。红色虚框标注关键区域。

FVAR 显著减少了混叠伪影,同时保留精细细节:

• 高亮区域处理更自然,无高频纹理伪影

• 消除明显的网格状锯齿

• inpainting 结果无混叠伪影

• outpainting 展现更好的空间层次

4.3 消融研究

变体

FID↓ (256)

FID↓ (1024)

VAR-d16 (Baseline)

3.55

8.25

FVAR-d16 (Full)

2.89

6.85

w/o Progressive Refocusing

3.51

8.15

w/ Gaussian blur

3.32

7.50

w/o High-Freq Teacher

3.06

7.20

w/o Dual tokenizers

3.14

7.40

关键发现:

1. 渐进式重新聚焦:在 1024×1024 分辨率下至关重要,移除后性能严重退化

2. 高频残差教师:有效增强细节生成质量,高分辨率贡献更显著

3. 双 Tokenizer:验证了不同信号类型需要专门的量化策略

5. 结论

FVAR 将传统的下一尺度预测范式转变为受物理启发的下一焦点预测,从根本上消除混叠伪影。结合双路径 tokenization 和高频残差教师网络,该模型在训练时学习利用干净结构线索和信息性混叠残差,最终蒸馏到完全兼容 VAR 的部署网络。

局限性:

• PSF 形状或半径不匹配可能降低高频残差的统计质量

• 双 codebook 训练可能需要仔细校准

• 极高频文字模式(小于 2 像素)仍具挑战

6. 论文与资源

论文 | Xiaofan Li*, Chenming Wu*, et al. "FVAR: Visual Autoregressive Modeling via Next Focus Prediction". Arxiv 2025.

本文系学术转载,如有侵权,请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ICCV 2025 论文和代码下载

在CVer公众号后台回复:ICCV2025,即可下载ICCV 2025论文和代码开源的论文合

CVPR 2025 论文和代码下载

在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/16 9:31:13

Cartographer时间同步终极指南:5步解决多传感器数据对齐难题

Cartographer时间同步终极指南:5步解决多传感器数据对齐难题 【免费下载链接】cartographer Cartographer is a system that provides real-time simultaneous localization and mapping (SLAM) in 2D and 3D across multiple platforms and sensor configurations.…

作者头像 李华
网站建设 2025/12/16 9:31:02

云原生AI模型部署实战:从训练到推理的一站式解决方案

云原生AI模型部署实战:从训练到推理的一站式解决方案 【免费下载链接】cube-studio cube studio开源云原生一站式机器学习/深度学习AI平台,支持sso登录,多租户/多项目组,数据资产对接,notebook在线开发,拖拉…

作者头像 李华
网站建设 2025/12/24 6:57:43

ClickHouse预计算聚合技术终极指南:5步实现数据查询加速10倍+

ClickHouse预计算聚合技术终极指南:5步实现数据查询加速10倍 【免费下载链接】hyperdx Resolve production issues, fast. An open source observability platform unifying session replays, logs, metrics, traces and errors. 项目地址: https://gitcode.com/g…

作者头像 李华
网站建设 2025/12/20 11:08:27

推荐 4 个 yyds 的 AI 控制安卓手机的 GitHub 项目。

逛逛在 11 月发了一篇文章,盘点了 GitHub 上 AI 操纵手机的开源项目。获得了 3 万多阅读,3000 多人转发收藏:没想到那篇文章发布 5 天后,豆包就官宣推出了 AI 手机,紧接着智谱 AI 就开源了 AutoGLM 模型。我又搜罗了几…

作者头像 李华
网站建设 2025/12/16 9:30:33

AI智能体性能诊断:5大关键指标深度解析与实战指南

AI智能体性能诊断:5大关键指标深度解析与实战指南 【免费下载链接】awesome-ai-agents A list of AI autonomous agents 项目地址: https://gitcode.com/GitHub_Trending/aw/awesome-ai-agents 你是否在选择AI智能体时面临功能过剩却不实用的困境&#xff1f…

作者头像 李华
网站建设 2025/12/16 9:30:09

国产CAD提升钣金车间工艺编制与响应效率的方法

钣金加工的特点是零件种类多、设计变更频繁。这对工艺编制的速度和准确性提出了很高要求。每次接到新图纸,工艺部门都需要快速完成下料、冲孔、折弯、焊接等工序的规划。过去,我们面临的主要问题是:工艺设计周期长,且设计图纸变更…

作者头像 李华