全文翻译
摘要
扩散模型在图像、音频和视频生成领域取得了显著进展,但它们依赖于迭代采样过程,导致生成速度较慢。为了克服这一限制,我们提出了一致性模型(Consistency Models),这是一类新的模型,通过直接将噪声映射到数据来生成高质量样本。一致性模型在设计上支持快速单步生成,同时也允许多步采样,以便在计算量和样本质量之间进行权衡。它们还支持零样本数据编辑,如图像修复、上色和超分辨率,而无需在这些任务上进行明确的训练。一致性模型既可以通过提炼预训练的扩散模型进行训练,也可以作为独立的生成模型进行训练。通过大量实验,我们证明了在单步和少步采样中,一致性模型优于现有的扩散模型提炼技术,在CIFAR-10数据集上实现了3.55的最先进FID(Frechet Inception Distance),在64×64分辨率的ImageNet数据集上实现了6.20的最先进FID。在独立训练时,一致性模型成为一类新的生成模型,在CIFAR-10、64×64分辨率的ImageNet和256×256分辨率的LSUN等标准基准测试中,其性能优于现有的单步、非对抗性生成模型。