全文翻译
摘要
生成模型在各个领域都产生了重大影响,这在很大程度上得益于它们在训练过程中通过增加数据、计算资源和模型规模来实现扩展的能力,这种现象可以用缩放定律来描述。最近的研究开始探索大型语言模型(LLMs)在推理阶段的缩放行为,揭示了在推理过程中投入更多计算资源如何能进一步提升性能。与大型语言模型不同,扩散模型本质上具有通过调整去噪步骤数量来灵活分配推理阶段计算资源的能力,尽管在经过几十步后,性能提升通常会趋于平缓。在这项研究中,我们探索了扩散模型超越增加去噪步骤之外的推理阶段缩放行为,并研究了如何通过增加计算资源来进一步提升生成性能。具体而言,我们考虑了一个旨在为扩散采样过程寻找更优噪声的搜索问题。我们沿着两个维度构建设计空间:用于提供反馈的验证器,以及用于寻找更优噪声候选的算法。通过在类别条件和文本条件图像生成基准上进行的大量实验,我们的研究结果表明,增加推理阶段的计算资源会显著提升扩散模型生成样本的质量,并且由于图像的复杂性,可以专门选择框架中各组件的组合,以适应不同的应用场景。