0%

全文翻译

摘要

尽管扩散模型在许多生成任务上表现出色,但它们需要大量的采样步骤才能生成逼真的样本。这促使社区开发有效的方法,将预训练的扩散模型蒸馏为更高效的模型,但这些方法通常仍需要少步推理,或者性能明显低于基础模型。在本文中,我们提出了分数隐式匹配(SIM),这是一种将预训练扩散模型蒸馏为单步生成器模型的新方法,同时保持与原始模型几乎相同的样本生成能力,并且无需数据——蒸馏过程不需要训练样本。该方法基于这样一个事实:尽管对于生成器模型来说,传统的基于分数的损失难以最小化,但在特定条件下,我们可以高效地计算扩散模型和生成器之间广泛类别的基于分数的散度的梯度。SIM在单步生成器方面表现出强大的实证性能:在CIFAR10数据集上,其无条件生成的FID为2.06,类条件生成的FID为1.96。此外,通过将SIM应用于领先的基于Transformer的扩散模型,我们蒸馏出用于文本到图像(T2I)生成的单步生成器,其美学分数达到6.42,与原始多步模型相比没有性能下降,明显优于其他单步生成器,包括SDXL-TURBO(5.33)、SDXL-LIGHTNING(5.34)和HYPER-SDXL(5.85)。我们将随本文发布这种适用于工业界的基于Transformer的单步T2I生成器。

阅读全文 »

全文翻译

摘要

扩散模型是新兴的具有表现力的生成模型,其中单次图像生成需要大量的时间步(推理步骤)。为了加速这一繁琐过程,均匀减少步骤被认为是扩散模型的无可争议的原则。我们认为这种均匀假设在实践中并非最优解,即我们可以为不同的模型找到不同的最优时间步。因此,我们提出在一个统一的框架中搜索最优时间步序列和压缩模型架构,以实现扩散模型的有效图像生成,而无需任何进一步的训练。具体来说,我们首先设计了一个包含所有可能时间步和各种架构的统一搜索空间。然后,引入两阶段进化算法在设计的搜索空间中寻找最优解。为了进一步加速搜索过程,我们利用生成样本和真实样本之间的FID分数来估计采样示例的性能。结果表明,所提出的方法(i)无需训练,无需任何训练过程即可获得最优时间步和模型架构;(?不是使用了优化算法和NAS求解)(ii)与大多数先进的扩散采样器正交,可以集成以获得更好的样本质量;(iii)具有通用性,搜索到的时间步和架构可以直接应用于具有相同引导尺度的不同扩散模型。实验结果表明,我们的方法仅使用几个时间步就取得了优异的性能,例如在ImageNet 64×64上仅用4步就获得了17.86的FID分数,而DDIM的FID分数为138.66。代码可在https://github.com/lilijiangg/AutoDiffusion获取。

阅读全文 »

全文翻译

摘要

扩散模型(DMs)通过从随机噪声开始并迭代求解反向时间常微分方程(ODE)来从数据分布中创建样本。由于迭代求解的每个步骤都需要进行计算成本高昂的神经函数评估(NFE),因此人们对仅使用几次NFE来近似求解这些扩散ODE(且不修改基础模型)产生了浓厚兴趣。然而,我们观察到在少量NFE的情况下,使用传统的ODE求解器从根本上无法追踪真实的ODE演化。在这项工作中,我们提出了一种新方法,用于学习DM的优秀求解器,我们称之为“求解器求解”(S4S)。S4S通过学习匹配强大教师求解器的输出来直接优化求解器,以获得良好的生成质量。我们在六种不同的预训练DM上评估了S4S,包括用于条件和无条件采样的像素空间和潜空间DM。在所有设置中,相对于传统的ODE求解器,S4S一致地提高了样本质量。此外,我们的方法是轻量级的、无数据的,并且可以作为黑盒插入任何离散化调度或架构之上以提升性能。在此基础上,我们还提出了S4S-Alt,它同时优化求解器和离散化调度。通过利用DM求解器的完整设计空间,在5次NFE的情况下,我们在CIFAR10上实现了3.73的FID,在MS-COCO上实现了13.26的FID,这比之前无训练的ODE方法提升了1.5倍。

阅读全文 »

全文翻译

摘要

在本文中,我们提出了Morse,一种简单的双采样框架,用于无损加速扩散模型。Morse的核心思想是通过利用快速跳跃采样和自适应残差反馈策略,重新构建迭代生成过程(从噪声到数据)。具体而言,Morse包含两个相互交互的模型,称为DashDot。Dash模型只是任何类型的预训练扩散模型,但在跳跃采样机制下运行,为采样效率的提升创造了足够的空间。Dot模型比Dash模型快得多,它经过学习,能够基于Dash模型轨迹上当前跳跃采样点的观测值生成残差反馈,将噪声估计提升到无需跳跃采样即可轻松匹配Dash模型的下一步估计。通过以时间交错的方式链接Dash和Dot模型的输出,Morse展现出在提高整体运行效率的同时,灵活实现所需图像生成性能的优点。借助我们提出的Dash和Dot模型之间的权重共享策略,Morse在训练和推理方面都很高效。在6个图像生成任务上,相对于9个基线扩散模型,我们的方法在广泛的采样步骤预算范围内,平均实现了1.78×至3.31×的无损加速。此外,我们表明,我们的方法还可以推广到改进专为少步文本到图像合成设计的潜在一致性模型(LCM-SDXL,其已通过一致性蒸馏技术进行了加速)。代码和模型可在https://github.com/deep-optimization/Morse获取。

阅读全文 »

全文翻译

摘要

具有Transformer架构的扩散模型在生成高保真图像和实现高分辨率可扩展性方面展现出了良好的能力。然而,图像合成所需的迭代采样过程非常耗费资源。有一系列研究致力于将概率流常微分方程(ODE)的求解方案蒸馏到少步学生模型中。尽管如此,现有方法受限于依赖最新的去噪样本作为输入,这使得它们容易受到暴露偏差的影响。为了解决这一局限性,我们提出了自回归蒸馏(ARD)方法,这是一种利用ODE历史轨迹来预测未来步骤的新方法。ARD具有两个关键优势:1. 它通过利用对累积误差不太敏感的预测历史轨迹来减轻暴露偏差;2. 它将ODE轨迹的先前历史作为更有效的粗粒度信息源加以利用。ARD通过添加标记轨迹历史中每个输入的逐令牌时间嵌入来修改教师Transformer架构,并采用分块因果注意力掩码进行训练。此外,仅在较低的Transformer层中融入历史输入可提升性能和效率。我们在ImageNet的类条件生成和文本到图像(T2I)合成任务中验证了ARD的有效性。在ImageNet-256上,我们的模型与基线方法相比,FID(Fréchet Inception Distance)退化降低了5倍,而仅需增加1.1%的FLOPs(浮点运算次数)。此外,ARD在仅4步内就使ImageNet-256的FID达到1.84,并且在提示遵循度评分上优于公开的1024像素文本到图像蒸馏模型,同时与教师模型相比FID仅有微小下降。项目页面:https://github.com/alsdudrla10/ARD

阅读全文 »

全文翻译

摘要

扩散Transformer(DiT)在视觉生成领域展现出了卓越的性能,但其计算成本高昂。尽管已有一些通过在相似token间共享去噪过程来压缩模型的token精简技术,但现有方法忽视了扩散模型的去噪先验,导致加速效果欠佳且生成图像质量下降。本研究提出了一个新的概念:关注并修剪扩散过程未关注区域的特征冗余。我们基于从结构到细节的去噪先验,分析了特征冗余的位置和程度,进而提出了SDTM(从结构到细节的token合并)方法,用于动态压缩特征冗余。具体而言,我们针对不同阶段设计了动态视觉token合并、压缩比调整和提示重加权策略。该方法以训练后处理的方式工作,可无缝集成到任何DiT架构中。在各种骨干网络、调度器和数据集上进行的大量实验表明,我们的方法具有优越性,例如实现了1.55倍的加速,同时对图像质量的影响微乎其微。项目页面:https://github.com/ICTMCG/SDTM

阅读全文 »

全文翻译

摘要

作为一种具有高表达能力的生成模型,扩散模型已在包括图像生成、自然语言处理和组合优化等多个领域展现出卓越的成功。然而,随着数据分布变得愈发复杂,将这些模型训练至收敛所需的计算资源也日益增加。尽管扩散模型通常采用均匀时间步长采样进行训练,但我们的研究表明,随机梯度的方差在不同时间步长间存在显著差异,高方差的时间步长成为阻碍更快收敛的瓶颈。为解决这一问题,我们引入了一种非均匀时间步长采样方法,该方法优先处理这些更为关键的时间步长。我们的方法通过跟踪每个时间步长的梯度更新对目标函数的影响,自适应地选择最有可能有效最小化目标函数的时间步长。实验结果表明,这种方法不仅加速了训练过程,还在收敛时提升了性能。此外,我们的方法在各种数据集、调度策略和扩散架构上均表现出稳健的性能,优于此前提出的缺乏这种稳健性的时间步长采样和加权启发式方法。

阅读全文 »

全文翻译

摘要

扩散Transformer(DiT)模型凭借其卓越的生成能力和可扩展性,在图像生成领域取得了显著成功。然而,扩散模型(DMs)的迭代特性导致计算复杂度较高,给模型部署带来了挑战。尽管现有的基于缓存的加速方法试图利用时间上的固有相似性来跳过DiT的冗余计算,但缺乏校正可能会导致潜在的质量下降。在本文中,我们提出了增量校准缓存(increment-calibrated caching)方法,这是一种用于DiT加速的无训练方法,其校准参数通过预训练模型自身的低秩近似生成。为解决异常激活可能导致的校正失败问题,我们引入了通道感知奇异值分解(channel-aware Singular Value Decomposition, SVD),进一步增强了校准效果。实验结果表明,在计算资源预算相近的情况下,我们的方法始终比现有的朴素缓存方法表现更优。与35步DDIM相比,我们的方法可减少超过45%的计算量,将Inception Score(IS)提高12,同时FID的增加量小于0.06。代码可在https://github.com/ccccczzy/icc获取。

阅读全文 »

全文翻译

摘要

训练扩散模型一直是计算密集型任务。在本文中,我们介绍了一种新的扩散模型训练加速方法SpeeD,该方法基于对时间步长的深入研究。我们的关键发现是:i)根据过程增量,时间步长在经验上可分为加速区、减速区和收敛区。ii)这些时间步长是不平衡的,许多集中在收敛区。iii)集中的步骤对扩散训练的益处有限。为了解决这个问题,我们设计了一种非对称采样策略,该策略减少了来自收敛区的步骤的频率,同时增加了来自其他区域的步骤的采样概率。此外,我们提出了一种加权策略,以强调过程增量快速变化的时间步长的重要性。作为一种即插即用且与架构无关的方法,SpeeD在各种扩散架构、数据集和任务中始终实现3倍加速。值得注意的是,由于其简单的设计,我们的方法在最小化开销的情况下显著降低了扩散模型训练的成本。我们的研究使更多研究人员能够以更低的成本训练扩散模型。

阅读全文 »

全文翻译

摘要

扩散模型能够生成高质量图像,但需要进行数十次前向传播。我们引入了分布匹配蒸馏(DMD)方法,该方法可将扩散模型转换为单步图像生成器,且对图像质量的影响微乎其微。我们通过最小化近似KL散度来强制单步图像生成器在分布层面与扩散模型匹配,其梯度可表示为两个分数函数的差值,一个是目标分布的分数函数,另一个是我们单步生成器所产生的合成分布的分数函数。这些分数函数被参数化为两个分别在各自分布上训练的扩散模型。结合匹配多步扩散输出大规模结构的简单回归损失,我们的方法优于所有已发表的少步扩散方法,在ImageNet 64×64上达到2.62的FID,在零样本COCO-30k上达到11.49的FID,可与Stable Diffusion相媲美,但速度要快几个数量级。利用FP16推理,我们的模型在现代硬件上能够以20 FPS的速度生成图像。

阅读全文 »