news 2026/5/8 17:41:24

流映射:加速扩散模型采样,解锁高效学习与可控采样新可能!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
流映射:加速扩散模型采样,解锁高效学习与可控采样新可能!

学习扩散模型的积分

2026年5月6日,阅读时间约84分钟。从扩散模型中采样是一个迭代过程,每一步去噪器会估计输入空间中路径的切线方向,通过沿着这个方向反复迈出小步来沿着路径移动,即计算跨噪声水平的积分,将简单噪声分布中的样本转换为目标分布中的样本并描绘出连接路径。那么,能否训练神经网络直接预测这个积分以加快采样速度呢?答案是肯定的,欢迎来到流映射的世界!

自扩散模型兴起,人们一直在寻找使其采样更快、成本更低的方法。大约两年前,有人写了一篇关于扩散蒸馏的博客文章,这是减少获得高质量样本所需步数的主要工具之一,此后虽各种蒸馏方法核心原理未变,但出现了许多新变体。

在这篇博客文章中,将深入探讨流映射。扩散模型通过预测路径上每个点的切线方向来描述噪声和数据之间的路径,而流映射能从同一路径上的任何一点预测该路径上的其他任何点,可用于更快的采样,还有实现更高效的基于奖励的学习和改进采样的可控性等用途,最近已成为热门研究主题。

定义流映射相对简单,但构建和训练它们有许多不同方法,且相关文献中充斥着不同的形式主义和术语,令人困惑。将根据Boffi等人提出的分类法来澄清一些问题。

流映射建立在扩散模型的思想基础之上,假设读者对这些思想有一定了解,熟悉向量微积分有助于理解其训练方式,若不熟悉,文章其他部分仍可能引起兴趣。可考虑阅读之前的一些博客文章获取背景信息,Chieh - Hsin Lai及其同事发表的关于扩散模型的综合专著也值得推荐,既适合复习,也适合入门。

以下是目录:

  1. 绘制从噪声到数据的路径
  2. 三种一致性概念
  3. 是否进行反向传播?
  4. 从头开始训练流映射
  5. 流映射的实际应用
  6. 应用与扩展
  7. 替代策略
  8. 总结思考
  9. 致谢
  10. 参考文献

绘制从噪声到数据的路径

从扩散模型中采样

如今,扩散模型有许多不同的采样算法,可分为随机或确定性两类。确定性采样是流映射发展的基础,之前已写过其奇妙之处,这里值得再次回顾。

要点如下:若有去噪器模型能根据有噪声的观测值预测干净原始数据的期望值,就可构建两种不同的迭代生成过程。

随机过程最直观,每次迭代从给定当前有噪声观测值的条件分布中采样,逐步逆转噪声过程,可使用去噪器模型的预测构建分布的近似,时间步之间的噪声水平间隔越小,近似越准确,多次迭代后噪声逐渐消失,最终得到干净数据分布的样本,这就是原始DDPM算法的工作原理,基于扩散模型随机微分方程形式的采样算法在输入空间中也会产生类似的随机轨迹。

确定性过程除开始时外,任何时候都不涉及随机采样,给定当前有噪声的观测值和去噪器的预测,有确定性的更新规则可得到下一个值,可递归应用该规则直到得到最终结果。该过程每一步都是确定性的,没有随机性,从给定起始点只能到达特定终点。这样的更新规则可在概率框架或使用常微分方程形式推导出来。

Flow Matching中使用的默认采样算法是确定性过程的另一个实例,神经网络通常被参数化为预测速度,而不是干净输入,但由于速度、预测值和观测值之间存在线性关系,这只是同一底层算法的一个变体。

所有这些算法的共同点是,每个时间步有噪声样本的边际分布是保持不变的,条件分布在确定性情况下会坍缩为狄拉克分布。边际分布的这种保持对于数据端和噪声端也同样适用,但如果看具体单个样本,采样过程在输入空间中描绘出的路径会非常不同。

下面是采样过程的可视化:左边是随机采样,右边是确定性采样,展示了一维和二维示例,目标分布是两个高斯分布的混合,从噪声分布的样本开始,随着采样进行,分布逐渐转变为目标混合分布。随机情况下,单个样本所经过的路径曲折不稳定,确定性情况下则平滑呈缓曲线,两种不同的微观行为产生了相同的宏观行为。

航位推算:用扩散模型跟踪路径

确定性采样算法的存在意味着,噪声和数据分布中的单个样本之间存在确定性的双射映射,每个噪声样本与特定的数据样本相关联,反之亦然。从噪声样本开始,可沿着输入空间中的路径到达相应的数据样本,只需沿着路径上每个点的切线方向前进,该方向由去噪器预测,也可反向沿着路径前进。

下图展示了噪声样本、对应数据源样本、连接它们的路径、路径上的中间点以及去噪器在该点的预测。若读过之前关于引导的几何或蒸馏的文章,可能会熟悉这种类型的图,前一篇文章还包含关于在二维中表示高维对象的危险警告,从二维直觉中得出结论时应格外小心。

使用去噪器预测来遍历这些路径是无记忆的,去噪器的唯一输入是输入空间中的当前位置和当前噪声水平,根据这些信息预测移动方向,它也是短视的,无法提前预知最终目的地,只指示下一步的方向,不能使用其他信息。这种描述路径的方式让人联想到通过航位推算进行导航。

由此可知,特定噪声和数据源样本对之间的路径必须是唯一的,不同样本对之间的路径永远不会交叉,因为去噪器无法区分多条交叉路径,只知道当前位置,而不知道在哪条路径上。从技术上讲,这个论点仅证明了路径在特定空间中不能交叉,但在理论上,它们仍可能在另一个空间中交叉,不过在实践中可忽略这种边缘情况,因为不同时间步的有噪声中间样本的分布基本上不会有重叠,且最近一些论文表明,不将当前噪声水平输入去噪器通常效果一样好,甚至更好,因为去噪器能从观测值本身推断出噪声水平。

路径在实践中从不交叉的事实使得使用去噪器进行无记忆遍历成为可能,在基于ODE的采样中,路径有时被称为解轨迹。

由于路径是弯曲的,采样时理想情况下应采取无限多个无穷小的步骤,以确保不“偏离”路径,但实践中采取小而有限的步骤,会导致近似误差,这些误差可能在采样过程中累积,近似的质量取决于步数和路径的弯曲程度,路径越弯曲,需要的步数越多。

幸运的是,通常通过计算上可行的步数(通常少于100步)可获得不错的结果。尽管如此,人们一直在寻求最小化路径曲率以实现更快的采样,这是Flow Matching和Reflow过程背后的动机。

绘制地图:用流映射绘制路径

使用去噪器模型学习预测路径上任何一点的切线方向是描述路径的一种方法,流映射则提供了一个替代方案,在路径上的任何一点,它们都可以预测该路径上任何其他点的位置。

用F(xs, s, t)来描述流映射,它将两个时间步作为输入,分别对应源和目标噪声水平。给定数据和噪声之间的双射,理想的流映射允许从路径上的任何位置跳到该路径上的任何其他位置。通常从噪声向数据源移动,所以s > t,但情况不一定如此,实际上会用神经网络来近似这个函数。

接下来将假设使用Flow Matching中常用的噪声调度,这可能是目前最受欢迎的选择,因为它使事情变得简单。虽然可以在更一般的设置中推导所有内容,但会使数学变得复杂,更难理解。将坚持原始扩散的时间方向约定,t = 0对应数据源分布,t = 1对应噪声。有关这些选择的影响的更多信息,可查看关于噪声调度的博客文章。

有了这些选择,给定去噪器,路径的切线方向或速度为:v_t = v(x_t, t) = (x_t - f(x_t, t)) / t。在Flow Matching设置中,通常将神经网络参数化为直接预测函数v(x_t, t),而不是干净输入的期望值,但很容易从一个得到另一个。

现在可以通过对速度进行积分来构建流映射:F(x_s, s, t) = x_s + ∫_s^t v(x_τ, τ) dτ。这个积分表示沿着路径采取无限多个无穷小的步骤,累积预测的切线方向,将其加到起点上,最终会到达目标点。在从噪声到数据源的典型情况下,s > t,这使得积分下限高于上限,反映了扩散是根据正向噪声过程定义的。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/8 17:41:03

实测 Claude Code:Python / JS / Java 全覆盖,终端里的“全栈搭档”

最近在折腾 Anthropic 推出的终端 AI 编程工具 Claude Code,顺手也在 se.zzmax.cn 上试了下聚合的大模型环境,整体感受就一个字:顺。尤其对我这种经常在 Python 后端、JS 前端和 Java 企业级项目之间来回切的人来讲,它“语言全覆盖…

作者头像 李华
网站建设 2026/5/8 17:41:01

嵌入式系统领域建模与架构耐久性设计实践

1. 嵌入式系统架构设计的核心挑战在嵌入式系统开发领域,我们经常面临一个根本性矛盾:一方面需要处理日益复杂的业务逻辑和硬件环境,另一方面又必须保证系统在资源受限条件下的长期稳定运行。传统架构设计方法往往难以平衡这对矛盾&#xff0c…

作者头像 李华
网站建设 2026/5/8 17:40:27

Hermes Agent框架接入Taotoken作为自定义模型提供方的步骤

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 Hermes Agent框架接入Taotoken作为自定义模型提供方的步骤 对于使用Hermes Agent框架的开发者而言,集成不同的大模型能…

作者头像 李华
网站建设 2026/5/8 17:40:21

基于Arduino与I2S的数字特雷门琴制作:从原理到实践

1. 项目概述与核心思路如果你对电子音乐制作或者复古合成器感兴趣,那么“特雷门琴”这个名字你一定不陌生。这是一种诞生于上世纪20年代的电子乐器,演奏者无需触碰琴体,仅凭双手在两根天线附近移动,就能控制音高和音量&#xff0c…

作者头像 李华
网站建设 2026/5/8 17:40:19

体验Taotoken模型广场快速切换不同模型进行效果对比的过程

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 体验Taotoken模型广场快速切换不同模型进行效果对比的过程 当你在项目中需要接入大模型能力时,面对市场上众多的模型提…

作者头像 李华
网站建设 2026/5/8 17:40:13

2026温州GEO新趋势:谁是真正的领跑者

在当前的商业与技术交汇期,底层流量入口正经历一场从传统“搜索框(关键词匹配)”向“AI对话框(语义与意图理解)”的全面迁徙。这一底层技术的演变,对B2B实体企业的数字化营销提出了史无前例的挑战。 在这一…

作者头像 李华