2025-CVPR-Scaling Inference Time Compute for Diffusion Models论文精读

全文翻译

摘要

生成模型在各个领域都产生了重大影响，这在很大程度上得益于它们在训练过程中通过增加数据、计算资源和模型规模来实现扩展的能力，这种现象可以用缩放定律来描述。最近的研究开始探索大型语言模型（LLMs）在推理阶段的缩放行为，揭示了在推理过程中投入更多计算资源如何能进一步提升性能。与大型语言模型不同，扩散模型本质上具有通过调整去噪步骤数量来灵活分配推理阶段计算资源的能力，尽管在经过几十步后，性能提升通常会趋于平缓。在这项研究中，我们探索了扩散模型超越增加去噪步骤之外的推理阶段缩放行为，并研究了如何通过增加计算资源来进一步提升生成性能。具体而言，我们考虑了一个旨在为扩散采样过程寻找更优噪声的搜索问题。我们沿着两个维度构建设计空间：用于提供反馈的验证器，以及用于寻找更优噪声候选的算法。通过在类别条件和文本条件图像生成基准上进行的大量实验，我们的研究结果表明，增加推理阶段的计算资源会显著提升扩散模型生成样本的质量，并且由于图像的复杂性，可以专门选择框架中各组件的组合，以适应不同的应用场景。

引言

生成模型通过学习从潜在数据分布中采样，改变了包括语言[1,73,75]、视觉[56,57]和生物学[81]在内的多个领域。它们成功的一个关键因素是能够在训练过程中通过增加数据量、计算资源和模型规模来进行扩展。这种训练时的缩放行为，通常被称为缩放定律[25,28]，可以预测随着模型变大、消耗更多数据、训练时间更长，性能会如何提升，为开发能力越来越强的生成模型提供了指导。

最近，在大型语言模型（LLMs）中，关于缩放的研究已经扩展到了推理阶段[7,65,83]。通过在推理时分配更多计算资源（通常是通过复杂的搜索过程），这些研究表明大型语言模型能够产生更高质量、更符合上下文的响应[19,70,80,82,88]。这为训练后有额外资源可用时提升模型性能开辟了新途径。

扩散模型[24,66,68]是一类通过训练去除数据中的噪声来工作的生成模型，在图像[14]、音频[63]和视频[52]等连续数据领域占据主导地位。为了生成单个样本，其生成过程通常从纯噪声开始，需要经过训练好的模型的多次前向传播来去除噪声，得到清晰的数据。因此，这些前向传播被称为去噪步骤。由于去噪步骤的数量可以调整，以在样本质量和计算成本之间进行权衡，扩散模型的生成过程自然为分配推理时的计算预算提供了灵活性。

在生成模型的背景下，这种计算预算通常也用函数评估次数（NFE）来衡量，以确保与其他使用迭代采样过程但不具备去噪能力的模型家族进行合理比较[74,89]。

经验观察[29,67,68]表明，仅通过增加去噪步骤来投入计算资源时，在达到一定的NFE后，性能提升往往会趋于平稳，这限制了在推理时通过扩展计算资源所能带来的收益。因此，以往关于扩散模型的研究长期以来都侧重于在推理时保持高性能的同时，尽可能减少NFE以提高效率[60,69]。而我们则对相反的前沿方向感兴趣。

与大型语言模型相比，扩散模型存在显式的随机性，这种随机性来自作为初始样本注入的噪声或在采样过程中注入的噪声[68,86]。有研究表明，某些噪声会比其他噪声产生更好的生成结果[2,53]，这为除了增加去噪步骤之外的NFE扩展提供了另一个维度——在采样过程中搜索更优的噪声。基于这一见解，我们研究了在推理时通过搜索来利用计算资源的方法，从而提高扩散模型在推理时的性能和可扩展性（图1）。我们主要考虑两个设计维度：在搜索中提供反馈的验证器，以及用于寻找更优噪声候选的算法。

对于验证器，我们考虑了三种适用于不同使用场景的设置：（1）我们拥有关于最终评估的特权信息；（2）我们拥有用于指导生成的条件信息；（3）我们没有额外的可用信息。对于算法，我们考虑了（1）随机搜索，即从一组固定的候选中选择最优的；（2）零阶搜索，即利用验证器的反馈来迭代优化噪声候选；（3）路径搜索，即利用验证器的反馈来迭代优化扩散采样轨迹。

我们首先在ImageNet的类别条件生成任务上展示我们的框架，然后将这些设计选择扩展到文本条件生成。鉴于图像的复杂性和文本条件的丰富性，有必要对生成质量进行全面评估[39]。因此，我们在搜索过程中使用多个验证器来扩展推理时的计算资源，这也使我们能够检查每个验证器的“偏差”以及与任务的对齐情况。为了防止过拟合到单个验证器，我们还测试了一种在不同基准上具有良好泛化能力的不同验证器集成方法。

我们的贡献总结如下：

我们引入了一个扩散模型推理时缩放的框架，表明通过搜索来扩展NFE可以在各种任务和模型规模上提升性能——超越了仅通过增加去噪步骤所能实现的性能，并且我们对计算预算对缩放性能的影响进行了全面的实证分析。
我们确定了搜索框架中的两个关键设计维度：提供反馈的验证器和寻找更优噪声的算法。我们的实验表明，没有一种验证器-算法组合是普遍最优的；每个任务都需要量身定制的搜索设置。
我们对验证器与各种生成任务的对齐情况进行了广泛分析，揭示了不同验证器的固有偏差，并强调了任务特定验证器设计的必要性。