全文翻译
摘要
尽管扩散模型在许多生成任务上表现出色,但它们需要大量的采样步骤才能生成逼真的样本。这促使社区开发有效的方法,将预训练的扩散模型蒸馏为更高效的模型,但这些方法通常仍需要少步推理,或者性能明显低于基础模型。在本文中,我们提出了分数隐式匹配(SIM),这是一种将预训练扩散模型蒸馏为单步生成器模型的新方法,同时保持与原始模型几乎相同的样本生成能力,并且无需数据——蒸馏过程不需要训练样本。该方法基于这样一个事实:尽管对于生成器模型来说,传统的基于分数的损失难以最小化,但在特定条件下,我们可以高效地计算扩散模型和生成器之间广泛类别的基于分数的散度的梯度。SIM在单步生成器方面表现出强大的实证性能:在CIFAR10数据集上,其无条件生成的FID为2.06,类条件生成的FID为1.96。此外,通过将SIM应用于领先的基于Transformer的扩散模型,我们蒸馏出用于文本到图像(T2I)生成的单步生成器,其美学分数达到6.42,与原始多步模型相比没有性能下降,明显优于其他单步生成器,包括SDXL-TURBO(5.33)、SDXL-LIGHTNING(5.34)和HYPER-SDXL(5.85)。我们将随本文发布这种适用于工业界的基于Transformer的单步T2I生成器。