全文翻译
摘要
扩散Transformer(DiT)在视觉生成领域展现出了卓越的性能,但其计算成本高昂。尽管已有一些通过在相似token间共享去噪过程来压缩模型的token精简技术,但现有方法忽视了扩散模型的去噪先验,导致加速效果欠佳且生成图像质量下降。本研究提出了一个新的概念:关注并修剪扩散过程未关注区域的特征冗余。我们基于从结构到细节的去噪先验,分析了特征冗余的位置和程度,进而提出了SDTM(从结构到细节的token合并)方法,用于动态压缩特征冗余。具体而言,我们针对不同阶段设计了动态视觉token合并、压缩比调整和提示重加权策略。该方法以训练后处理的方式工作,可无缝集成到任何DiT架构中。在各种骨干网络、调度器和数据集上进行的大量实验表明,我们的方法具有优越性,例如实现了1.55倍的加速,同时对图像质量的影响微乎其微。项目页面:https://github.com/ICTMCG/SDTM。