全文翻译
摘要
具有Transformer架构的扩散模型在生成高保真图像和实现高分辨率可扩展性方面展现出了良好的能力。然而,图像合成所需的迭代采样过程非常耗费资源。有一系列研究致力于将概率流常微分方程(ODE)的求解方案蒸馏到少步学生模型中。尽管如此,现有方法受限于依赖最新的去噪样本作为输入,这使得它们容易受到暴露偏差的影响。为了解决这一局限性,我们提出了自回归蒸馏(ARD)方法,这是一种利用ODE历史轨迹来预测未来步骤的新方法。ARD具有两个关键优势:1. 它通过利用对累积误差不太敏感的预测历史轨迹来减轻暴露偏差;2. 它将ODE轨迹的先前历史作为更有效的粗粒度信息源加以利用。ARD通过添加标记轨迹历史中每个输入的逐令牌时间嵌入来修改教师Transformer架构,并采用分块因果注意力掩码进行训练。此外,仅在较低的Transformer层中融入历史输入可提升性能和效率。我们在ImageNet的类条件生成和文本到图像(T2I)合成任务中验证了ARD的有效性。在ImageNet-256上,我们的模型与基线方法相比,FID(Fréchet Inception Distance)退化降低了5倍,而仅需增加1.1%的FLOPs(浮点运算次数)。此外,ARD在仅4步内就使ImageNet-256的FID达到1.84,并且在提示遵循度评分上优于公开的1024像素文本到图像蒸馏模型,同时与教师模型相比FID仅有微小下降。项目页面:https://github.com/alsdudrla10/ARD。