news 2026/4/15 7:34:38

一步生成,像素空间,何恺明让 pMF 做到了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
一步生成,像素空间,何恺明让 pMF 做到了

何恺明团队最近抛出的这篇工作,多少有点“把老问题直接掀桌子重来”的味道。他们提出的Pixel MeanFlow(pMF),在不借助潜在空间、不依赖多步采样的前提下,只用一次前向传播,就生成了质量相当扎实的图像。在 ImageNet 上,256×256 分辨率做到 2.22 的 FID,512×512 也稳在 2.48。

如果把这些数字和过去几年主流扩散模型的设置放在一起对照,很难不意识到:这不是一次小幅优化,而是一次路线层面的收缩。

论文中在 ImageNet 256×256 与 512×512 的系统级对比结果,这些表格基本奠定了 pMF 在“单步生成”赛道上的位置。


一、生成模型为什么总是又慢又绕?

把时间拨回到前几年,生成模型的主流路线几乎是固定的:一步一步采样,或者先压进潜在空间再生成。,是显性的;,则藏在系统结构里。

DDPM、Flow Matching 需要几十步反复修正,Stable Diffusion 看似轻巧,实则把复杂度转移给了一个庞大的 VAE 编码—解码系统。

这些设计并非拍脑袋得来,它们在稳定性和可控性上确实立过功。但工程代价也随之堆积:推理延迟高、调参空间大、模型结构臃肿。一旦进入部署阶段,这些问题会被无限放大。

后来出现的一致性模型、MeanFlow,开始尝试把“多步”压缩成“一步”;而 JiT 等工作,则直接挑战“像素空间是不是一定不可行”。问题是,这两条路始终没有真正汇合。


二、单步 + 像素空间,为什么一直没人走通?

表面看,这只是把两个已有想法拼在一起;但真正做过的人都知道,这一步并不简单。

单步生成对模型表达能力的要求极高,而像素空间又是高维、强噪声的“重灾区”。多数方法要么在速度场里迷路,要么生成结果直接失控。

pMF 的切入点,恰恰不是继续在“预测什么”上死磕,而是换了一个问题问法:

网络真的需要直接学那个最难的目标吗?

作者用一张极其克制的示意图,把这个问题摆了出来。


三、把“学什么”和“怎么罚”拆开

pMF 的核心想法,说穿了并不复杂,却非常有分寸感:

网络输出的空间,和损失约束的空间,不必是同一个。

模型直接输出的是一张“去噪后的图像”——记作 x。它不要求完美复原干净样本,但被假定落在一个低维图像流形上,更接近真实世界里的图像形态。

而真正承担物理与数学约束的,是损失函数,它仍然工作在 MeanFlow 的速度空间里。

两者之间,通过一个线性的、可解释的映射连接起来:

x = zₜ − t · u(zₜ, r, t)

给出了对应的仿真可视化:

zₜ 噪声密集、结构混乱;u 高维且不直观;而 x 已经呈现出模糊但合理的图像轮廓。

这一步,其实是把“难学的东西”,悄悄藏进了损失里。


四、高维空间里,预测谁更现实?

直觉可以骗人,实验不会。

论文用一个二维玩具实验,把维度从 2 一路拉到 512,对比 x-预测和 u-预测的行为差异。结果在 Figure 2 中一目了然:

维度一高,u-预测几乎立刻崩盘;而 x-预测仍然能给出结构稳定的结果。

真实数据集上的表现更加直接。

在 ImageNet 64×64 下,两者尚能打平;但到了 256×256,u-预测的 FID 飙到 164.89,而 x-预测仍能维持在可用区间(FID 9.56)。这些数字集中呈现在 Table 2 中。

说到底,x 更像“图像应该长什么样”,而 u 更像“噪声世界里的导数”。神经网络会选择谁,答案并不意外。


五、感知损失,终于用在了该用的地方

pMF 直接在像素空间出图,这件事带来了一个很现实的好处:

感知损失终于不再是“VAE 专属”。

加入 VGG-based LPIPS,FID 从 9.56 下降到 5.62;换成 ConvNeXt-V2 版本后,进一步压到 3.53。提升幅度不算含蓄,但完全说得通。

这不是技巧堆叠,而是路径改变带来的红利。


六、一步生成,也能站上性能前排

在 ImageNet 256×256 与 512×512 的完整系统对比中,pMF 的位置相当清晰:

一次前向传播(NFE=1),FID 却能和多步扩散模型掰手腕。

从参数量、算力开销到生成质量,pMF 并非“便宜凑数”的方案,而是一个正经的高性能模型,只是把流程压缩到了极限。


七、这项工作真正留下的,是一条路

回头看,pMF 的意义,可能并不只在于刷新了某几个指标。

它更像是在提醒我们:生成模型不一定非得层层嵌套、步步回溯。只要目标设得足够聪明,约束放在合适的位置,一次映射,也可以是稳定而可信的。

未来这条路线能走多远,还需要时间验证。但至少,何恺明团队已经把“单步 + 像素空间”这道题,清清楚楚地写出了一种可行解。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/8 22:29:09

2025大模型行业发展报告:700亿市场规模+名企高薪岗位全解析

2024年中国大模型市场规模已达294.16亿元,预计2026年将突破700亿元。市场形成三大梯队:阿里、字节跳动等第一梯队,DeepSeek、智谱AI等第二梯队,以及垂直行业第三梯队。头部企业积极布局技术研发与人才储备,相关岗位薪资…

作者头像 李华
网站建设 2026/4/7 9:37:43

MATLAB Simulink教程及模型

MATLAB Simulink教程及模型 包括:MATLAB Simulink仿真及代码生成视频教程,Simulink仿真及代码生成技术电’子’书. MATLAB文章目录 MATLAB Simulink入门教程:从零开始搭建你的第一个仿真模型 本文适合刚接触Simulink的新手用户,通过一个简单示…

作者头像 李华
网站建设 2026/4/13 15:25:37

2026 年学术研究 AI 写论文辅助软件权威排行榜

一、综合排行榜 TOP10(按综合评分排序) 排名工具名称综合评分核心特性标签适用场景1PaperRed99 分全流程王者、合规标杆、免费 AIGC 不限次检测本科 / 硕士 / 博士全阶段论文、期刊投稿、查重降重全流程2毕业之家 AI94 分中文学术全流程、真实文献引用、…

作者头像 李华
网站建设 2026/4/15 0:42:39

用于结构振动响应压缩的频率增强矢量量化变分自编码器

1. 论文中文标题 用于结构振动响应压缩的频率增强矢量量化变分自编码器 2. 论文主要内容概括 本文针对结构健康监测中振动响应数据量大、传输存储困难的问题,提出了一种频率增强的矢量量化变分自编码器(FEVQVAE)压缩方法。传统自编码器只能将数据压缩为低维浮点特征,限制…

作者头像 李华