点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
点击进入—>【顶会/顶刊】投稿交流群
添加微信号:CVer2233,小助手拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!
Visual Autoregressive Modeling via Next Focus Prediction
作者团队 | Baidu Inc.
论文:https://arxiv.org/abs/2511.18838
研究背景
近日,百度研究团队在视觉自回归生成领域取得重要突破,提出了一种全新的自回归图像生成框架 FVAR(Focus Visual AutoRegressive)。该工作将传统的「下一尺度预测」范式重新定义为「下一焦点预测」,模拟相机从模糊到清晰的自然对焦过程。
核心贡献:
1. 下一焦点预测范式:突破性地将多尺度自回归从简单下采样转变为渐进式光学重新聚焦,从根本上消除混叠伪影(锯齿、摩尔纹等)。
2. 渐进式重新聚焦金字塔:使用物理一致的散焦核(PSF)构建无混叠的多尺度表示,实现从模糊到清晰的平滑过渡。
3. 高频残差教师网络:通过专门的教师-学生蒸馏框架,在训练时利用高频信息增强细节生成,部署时零额外开销。
实验表明,FVAR 在 ImageNet 多个分辨率上显著超越 VAR 和 M-VAR,同时保持与现有 VAR 框架的完全兼容性。
图1. FVAR 生成的图像质量显著优于标准 VAR,有效减少锯齿和摩尔纹等混叠伪影,同时保留精细细节和文字可读性。
1. 简介
视觉自回归模型(VAR)通过多尺度 token 金字塔上的下一尺度预测,已经展现出卓越的图像生成质量和可扩展性。然而,传统方法使用均匀下采样来构建这些金字塔,不可避免地引入混叠伪影——锯齿边缘、阶梯效应和摩尔纹等问题。
这些伪影的产生源于高频内容超过奈奎斯特极限后被折叠到基带中,迫使自回归 Transformer 同时承担去混叠和生成细节的双重任务。
本文从物理光学的角度出发,受相机对焦过程的启发,提出将视觉自回归从「下一尺度预测」重新定义为「下一焦点预测」。核心洞见在于:图像形成过程本质上是从模糊到清晰的渐进聚焦,而非通过有损分辨率降低的下采样。
2. 相关工作
2.1 视觉自回归生成
自回归模型将图像离散化为 codebook 索引,以 GPT 风格预测 token 序列。最近的 VAR 模型将自回归重新定义为多尺度 token 金字塔上的下一尺度预测,展现出优于扩散模型的可扩展性。后续工作如 M-VAR 通过解耦尺度内/尺度间依赖进一步提升效率。然而,这些方法都依赖均匀下采样构建多尺度表示,忽视了光学成像的物理原理。
2.2 抗混叠与去摩尔纹
混叠伪影源于高频图像内容超出采样能力(违反奈奎斯特准则),导致信号折叠到低频。在图形渲染和图像处理中,经典抗混叠技术(超采样、形态学抗混叠)通过在下采样前进行预滤波来缓解锯齿边缘。然而,较少工作在生成流程中明确处理混叠问题,尤其是视觉自回归模型。这正是 FVAR 的创新点所在。
3. 方法
FVAR 包含三个核心创新:(1) 下一焦点预测范式、(2) 渐进式重新聚焦金字塔构建、(3) 高频残差学习。
图2. 渐进式重新聚焦 vs 均匀下采样。(左)标准 VAR 使用均匀下采样,引入混叠伪影。(右)FVAR 采用 PSF 半径递减的渐进式重新聚焦,模拟相机从模糊到清晰的对焦过程。
3.1 下一焦点预测范式
我们提出从基于尺度到基于焦点的自回归范式转变。这种形式具有以下理论优势:
1.频谱保持:每个焦点状态受 PSF 频率响应限制,防止混叠伪影
2.连续性:焦点序列在模糊核空间形成连续流形,实现状态间平滑插值
3.信息单调性:信息内容随 ρ_k → 0 单调增加,与自回归生成过程一致
3.2 渐进式重新聚焦金字塔
圆形光圈的散焦 PSF 近似为归一化圆盘核 k_ρ,半径遵循单调递减调度,确保从 ρ_1 > ρ_2 > ... > ρ_K = 0 的平滑模糊到清晰过渡。
为捕获整体结构和高频残差信息,我们构建互补视图的双路径策略:L_k 表示物理一致的聚焦视图,D_k 为传统下采样视图,A_k 为高频残差信息。
3.3 高频残差教师网络
图3. 高频残差教师训练架构。训练时采用双网络:高频残差教师(上)通过 Alias-Gate 交叉注意力处理结构 token 和混叠 token;部署网络(下)仅使用结构 token 以保持与原生 VAR 的兼容性。
我们引入高频残差教师网络,将训练时的混叠感知学习与推理解耦:
• 使用双路径策略对聚焦视图和高频残差进行分词
• 混叠 codebook 远小于结构 codebook,反映高频模式的稀疏特性
• 教师网络通过 Alias-Gate Cross-Attention (AG-XAttn) 融合两路信息
• 部署网络仅在结构 token 上操作标准自注意力,保持与 VAR 完全兼容
推理时仅使用部署网络,无任何额外开销。
4. 实验结果
4.1 主要结果
在 ImageNet 256×256 上,FVAR 在所有模型规模上均一致优于 VAR 和 M-VAR:
模型 | FID↓ | IS↑ | Precision↑ | Recall↑ | 参数量 |
VAR-d16 | 3.55 | 280.4 | 0.84 | 0.51 | 310M |
M-VAR-d16 | 3.07 | 294.6 | 0.84 | 0.53 | 464M |
FVAR-d16 | 2.89 | 298.1 | 0.85 | 0.54 | 310M |
VAR-d24 | 2.33 | 312.9 | 0.82 | 0.59 | 1.0B |
M-VAR-d24 | 1.93 | 320.7 | 0.83 | 0.59 | 1.5B |
FVAR-d24 | 1.75 | 325.8 | 0.84 | 0.61 | 1.0B |
4.2 可视化比较
图4. VAR 与 FVAR 的视觉质量对比。第一行为图像生成,第二行为 inpainting 和 outpainting。每组中左侧为 VAR,右侧为 FVAR。红色虚框标注关键区域。
FVAR 显著减少了混叠伪影,同时保留精细细节:
• 高亮区域处理更自然,无高频纹理伪影
• 消除明显的网格状锯齿
• inpainting 结果无混叠伪影
• outpainting 展现更好的空间层次
4.3 消融研究
变体 | FID↓ (256) | FID↓ (1024) |
VAR-d16 (Baseline) | 3.55 | 8.25 |
FVAR-d16 (Full) | 2.89 | 6.85 |
w/o Progressive Refocusing | 3.51 | 8.15 |
w/ Gaussian blur | 3.32 | 7.50 |
w/o High-Freq Teacher | 3.06 | 7.20 |
w/o Dual tokenizers | 3.14 | 7.40 |
关键发现:
1. 渐进式重新聚焦:在 1024×1024 分辨率下至关重要,移除后性能严重退化
2. 高频残差教师:有效增强细节生成质量,高分辨率贡献更显著
3. 双 Tokenizer:验证了不同信号类型需要专门的量化策略
5. 结论
FVAR 将传统的下一尺度预测范式转变为受物理启发的下一焦点预测,从根本上消除混叠伪影。结合双路径 tokenization 和高频残差教师网络,该模型在训练时学习利用干净结构线索和信息性混叠残差,最终蒸馏到完全兼容 VAR 的部署网络。
局限性:
• PSF 形状或半径不匹配可能降低高频残差的统计质量
• 双 codebook 训练可能需要仔细校准
• 极高频文字模式(小于 2 像素)仍具挑战
6. 论文与资源
论文 | Xiaofan Li*, Chenming Wu*, et al. "FVAR: Visual Autoregressive Modeling via Next Focus Prediction". Arxiv 2025.
本文系学术转载,如有侵权,请联系CVer小助手删文
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
ICCV 2025 论文和代码下载
在CVer公众号后台回复:ICCV2025,即可下载ICCV 2025论文和代码开源的论文合CVPR 2025 论文和代码下载
在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集
CV垂直方向和论文投稿交流群成立
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习
▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看