2025-CVPR-RayFlow Instance-Aware Diffusion Acceleration via Adaptive Flow Trajectories论文精读

全文翻译

摘要

扩散模型在多个领域都取得了显著成功。然而，其生成速度缓慢仍是一个关键挑战。现有的加速方法虽以减少步骤为目标，但往往会牺牲样本质量、可控性或增加训练复杂性。为此，我们提出了RayFlow，这是一种新颖的扩散框架，旨在解决这些局限性。与以往方法不同，RayFlow引导每个样本沿着独特路径朝着特定于实例的目标分布演进。该方法在最大限度减少采样步骤的同时，保留了生成的多样性和稳定性。此外，我们引入了时间采样器（Time Sampler），这是一种重要性采样技术，通过聚焦关键时间步来提高训练效率。大量实验表明，与现有的加速技术相比，RayFlow在生成高质量图像方面具有优势，同时提升了速度、可控性和训练效率。

1. 引言

扩散模型彻底改变了生成式人工智能领域[10, 41-43]，在多个领域取得了令人瞩目的成果，从文本[15, 47]、图像[40]到3D模型[4, 22, 46]、音频[9, 19]以及修复[1, 2]等领域均有涉猎。然而，其生成速度缓慢（通常每个样本需要数十步）仍是一个显著的局限性。各种蒸馏技术试图加速这一过程，包括常规蒸馏[26, 56]、对抗性蒸馏[38, 45]、渐进式蒸馏[36]和变分分数蒸馏[29, 37, 46, 49, 53, 54]。当前的蒸馏方法尽管各有目标，但仍面临诸多挑战，包括大量的计算开销、复杂的训练方案，以及在生成速度、样本质量和有效引导方面的局限性[12, 28, 30, 31, 48, 55, 58]。这凸显了开发更具通用性的方法以充分发挥扩散模型能力的必要性。

如图1a所示，传统的扩散过程是大多数加速和蒸馏方法的基础。然而，从图中可以明显看出，该过程存在几个问题：

（1）期望差异：反向过程中的期望在不同时间步存在差异。要获得高质量样本，需要更多的采样步骤，这使得加速采样方法无法避免质量下降。
（2）扩散路径重叠：由于所有样本最终都会收敛到相同的标准高斯分布，扩散概率路径会发生重叠。$\mathbb{E}[\bar{\epsilon}_{t} | x_{t}]$可能代表多个概率路径的交点，导致采样结果存在显著随机性，并可能造成严重的质量损失。
（3）采样不稳定性：即使采样点位置接近，最终生成的结果也可能存在显著差异，从而引入严重的不稳定性。

已有一些研究试图解决这些局限性：文献[23]引入了整流流（RF），使用线性常微分方程（ODE）进行直线路径采样（图1b左上角），而文献[44]将RF扩展到一阶曲线路径整流扩散（RD），用于类去噪扩散概率模型（DDPM）（图1b右上角）。这些样本-噪声匹配方法也被文献[25, 51]应用于扩散蒸馏。

然而，现有的样本-噪声匹配算法在试图解决上述挑战时带来了新的缺点：（1）路径不一致：样本-噪声匹配与实际ODE采样路径之间的差距过大，可能导致训练困难和泛化能力差；（2）多样性有限：采样概率路径受到严重限制，显著降低了模型生成的多样性；（3*）理论缺口：该方法虽直观性强，但缺乏基本的理论推导来证明其在采样稳定性方面的最优性。

为了解决传统扩散中的这三个挑战以及现有样本-噪声匹配方法带来的缺点，我们提出了RayFlow（如图1b底部所示）。一致的期望和路径：针对挑战（1）和（1），我们利用预训练模型计算所有时间步的统一噪声期望$\epsilon_{\mu}=\mathbb{E}_{t}[\mathbb{E}[\bar{\epsilon}_{t}]]$，从而实现高效的步骤压缩而不降低质量。个体路径设计：针对挑战（2）和（2），每个样本不再收敛到共同的高斯分布，而是沿着独特的扩散路径朝着其特定的目标均值演进，同时降低方差，最大限度地减少路径重叠和采样随机性。理论保证：针对挑战（3）和（3*），我们证明了我们的方法最大化了起点、目标均值和原点之间的路径概率，确保了最优的采样稳定性和原始数据点的可靠重建。

此外，为了提高训练效率，我们开发了时间采样器（Time Sampler），这是一种先进的重要性采样技术，用于在训练过程中识别关键时间步。通过将随机斯坦差异（SSD）与神经网络相结合，时间采样器近似最优采样时间步分布，以最小化训练损失估计器的方差，从而减少计算冗余并提高效率。

我们的主要贡献总结如下：

RayFlow框架：我们引入了一种创新的扩散框架，具有实例独立的目标均值。这种方法增强了对生成过程的控制，实现了更高效、更精确的采样。
时间采样器：我们开发了一种利用SSD的时间步重要性采样技术。该方法能有效识别训练过程中的关键时间步，减少计算冗余并提高效率。
高效算法：我们提出了用于RayFlow训练和采样的实用算法，包括用于更快生成的快速单步采样变体。
理论分析：我们对RayFlow进行了全面的理论检验，详细推导了路径概率并优化了参数，以确保最大的采样稳定性。

通过大量实验，我们证明了RayFlow在生成高质量图像方面的有效性，与现有的加速算法相比，在速度、控制和训练效率方面都有提升。我们的工作为探索和控制扩散过程开辟了新的途径。