全文翻译
摘要
扩散Transformer(DiTs)已实现了最先进(SOTA)的图像生成质量,但存在延迟高和内存效率低的问题,使其难以在资源受限的设备上部署。一个主要的效率瓶颈是,现有的DiTs在图像的所有区域上应用了同等的计算量。然而,并非所有图像令牌都同等重要,某些局部区域(如物体)需要更多计算。为解决这一问题,我们提出了DiffCR,这是一种具有可微分压缩比的动态DiT推理框架,它能自动学习为每个图像令牌跨层和跨时间步动态分配计算资源,从而实现高效的DiTs。具体而言,DiffCR集成了三个特性:(1)令牌级路由机制,其中每个DiT层包含一个路由器,该路由器与模型权重联合微调以预测令牌重要性分数。通过这种方式,不重要的令牌可以绕过整个层的计算;(2)层级可微分比率机制,不同的DiT层从零初始化开始自动学习不同的压缩比,使得冗余层的压缩比较大,而其他层的压缩比较小甚至不压缩;(3)时间步级可微分比率机制,每个去噪时间步学习其自身的压缩比。由此产生的模式显示,在噪声较大的时间步压缩比较高,而随着图像变得更清晰,压缩比逐渐降低。在文本到图像和图像修复任务上的大量实验表明,DiffCR有效地捕捉了令牌、层和时间步三个维度的动态性,与先前的工作相比,在生成质量和效率之间取得了更优的权衡。