全文翻译
摘要
扩散模型的主要缺点之一是图像生成的推理时间较慢。在解决这个问题的最成功方法中,蒸馏方法表现突出。然而,这些方法需要大量的计算资源。在本文中,我们采用了另一种加速扩散模型的方法。我们对UNet编码器进行了全面研究,并对编码器特征进行了实证分析,从而深入了解了它们在推理过程中的变化。特别地,我们发现编码器特征变化极小,而解码器特征在不同时间步长间表现出显著差异。这一发现促使我们在某些相邻时间步长省略编码器计算,并将先前时间步长的编码器特征重复用作多个时间步长解码器的输入。重要的是,这使我们能够并行执行解码器计算,进一步加速去噪过程。此外,我们引入了一种先验噪声注入方法,以改善生成图像的纹理细节。除了标准的文本到图像任务外,我们还在其他任务上验证了我们的方法:文本到视频、个性化生成和参考引导生成。在不使用任何知识蒸馏技术的情况下,我们的方法分别将Stable Diffusion(SD)和DeepFloyd - IF模型的采样速度提高了41%和24%,将DiT模型的采样速度提高了34%,同时保持了高质量的生成性能。