0%

全文翻译

摘要

具有Transformer架构的扩散模型在生成高保真图像和实现高分辨率可扩展性方面展现出了良好的能力。然而,图像合成所需的迭代采样过程非常耗费资源。有一系列研究致力于将概率流常微分方程(ODE)的求解方案蒸馏到少步学生模型中。尽管如此,现有方法受限于依赖最新的去噪样本作为输入,这使得它们容易受到暴露偏差的影响。为了解决这一局限性,我们提出了自回归蒸馏(ARD)方法,这是一种利用ODE历史轨迹来预测未来步骤的新方法。ARD具有两个关键优势:1. 它通过利用对累积误差不太敏感的预测历史轨迹来减轻暴露偏差;2. 它将ODE轨迹的先前历史作为更有效的粗粒度信息源加以利用。ARD通过添加标记轨迹历史中每个输入的逐令牌时间嵌入来修改教师Transformer架构,并采用分块因果注意力掩码进行训练。此外,仅在较低的Transformer层中融入历史输入可提升性能和效率。我们在ImageNet的类条件生成和文本到图像(T2I)合成任务中验证了ARD的有效性。在ImageNet-256上,我们的模型与基线方法相比,FID(Fréchet Inception Distance)退化降低了5倍,而仅需增加1.1%的FLOPs(浮点运算次数)。此外,ARD在仅4步内就使ImageNet-256的FID达到1.84,并且在提示遵循度评分上优于公开的1024像素文本到图像蒸馏模型,同时与教师模型相比FID仅有微小下降。项目页面:https://github.com/alsdudrla10/ARD

阅读全文 »

全文翻译

摘要

扩散Transformer(DiT)在视觉生成领域展现出了卓越的性能,但其计算成本高昂。尽管已有一些通过在相似token间共享去噪过程来压缩模型的token精简技术,但现有方法忽视了扩散模型的去噪先验,导致加速效果欠佳且生成图像质量下降。本研究提出了一个新的概念:关注并修剪扩散过程未关注区域的特征冗余。我们基于从结构到细节的去噪先验,分析了特征冗余的位置和程度,进而提出了SDTM(从结构到细节的token合并)方法,用于动态压缩特征冗余。具体而言,我们针对不同阶段设计了动态视觉token合并、压缩比调整和提示重加权策略。该方法以训练后处理的方式工作,可无缝集成到任何DiT架构中。在各种骨干网络、调度器和数据集上进行的大量实验表明,我们的方法具有优越性,例如实现了1.55倍的加速,同时对图像质量的影响微乎其微。项目页面:https://github.com/ICTMCG/SDTM

阅读全文 »

全文翻译

摘要

作为一种具有高表达能力的生成模型,扩散模型已在包括图像生成、自然语言处理和组合优化等多个领域展现出卓越的成功。然而,随着数据分布变得愈发复杂,将这些模型训练至收敛所需的计算资源也日益增加。尽管扩散模型通常采用均匀时间步长采样进行训练,但我们的研究表明,随机梯度的方差在不同时间步长间存在显著差异,高方差的时间步长成为阻碍更快收敛的瓶颈。为解决这一问题,我们引入了一种非均匀时间步长采样方法,该方法优先处理这些更为关键的时间步长。我们的方法通过跟踪每个时间步长的梯度更新对目标函数的影响,自适应地选择最有可能有效最小化目标函数的时间步长。实验结果表明,这种方法不仅加速了训练过程,还在收敛时提升了性能。此外,我们的方法在各种数据集、调度策略和扩散架构上均表现出稳健的性能,优于此前提出的缺乏这种稳健性的时间步长采样和加权启发式方法。

阅读全文 »

全文翻译

摘要

扩散Transformer(DiT)模型凭借其卓越的生成能力和可扩展性,在图像生成领域取得了显著成功。然而,扩散模型(DMs)的迭代特性导致计算复杂度较高,给模型部署带来了挑战。尽管现有的基于缓存的加速方法试图利用时间上的固有相似性来跳过DiT的冗余计算,但缺乏校正可能会导致潜在的质量下降。在本文中,我们提出了增量校准缓存(increment-calibrated caching)方法,这是一种用于DiT加速的无训练方法,其校准参数通过预训练模型自身的低秩近似生成。为解决异常激活可能导致的校正失败问题,我们引入了通道感知奇异值分解(channel-aware Singular Value Decomposition, SVD),进一步增强了校准效果。实验结果表明,在计算资源预算相近的情况下,我们的方法始终比现有的朴素缓存方法表现更优。与35步DDIM相比,我们的方法可减少超过45%的计算量,将Inception Score(IS)提高12,同时FID的增加量小于0.06。代码可在https://github.com/ccccczzy/icc获取。

阅读全文 »

全文翻译

摘要

训练扩散模型一直是计算密集型任务。在本文中,我们介绍了一种新的扩散模型训练加速方法SpeeD,该方法基于对时间步长的深入研究。我们的关键发现是:i)根据过程增量,时间步长在经验上可分为加速区、减速区和收敛区。ii)这些时间步长是不平衡的,许多集中在收敛区。iii)集中的步骤对扩散训练的益处有限。为了解决这个问题,我们设计了一种非对称采样策略,该策略减少了来自收敛区的步骤的频率,同时增加了来自其他区域的步骤的采样概率。此外,我们提出了一种加权策略,以强调过程增量快速变化的时间步长的重要性。作为一种即插即用且与架构无关的方法,SpeeD在各种扩散架构、数据集和任务中始终实现3倍加速。值得注意的是,由于其简单的设计,我们的方法在最小化开销的情况下显著降低了扩散模型训练的成本。我们的研究使更多研究人员能够以更低的成本训练扩散模型。

阅读全文 »

全文翻译

摘要

扩散模型能够生成高质量图像,但需要进行数十次前向传播。我们引入了分布匹配蒸馏(DMD)方法,该方法可将扩散模型转换为单步图像生成器,且对图像质量的影响微乎其微。我们通过最小化近似KL散度来强制单步图像生成器在分布层面与扩散模型匹配,其梯度可表示为两个分数函数的差值,一个是目标分布的分数函数,另一个是我们单步生成器所产生的合成分布的分数函数。这些分数函数被参数化为两个分别在各自分布上训练的扩散模型。结合匹配多步扩散输出大规模结构的简单回归损失,我们的方法优于所有已发表的少步扩散方法,在ImageNet 64×64上达到2.62的FID,在零样本COCO-30k上达到11.49的FID,可与Stable Diffusion相媲美,但速度要快几个数量级。利用FP16推理,我们的模型在现代硬件上能够以20 FPS的速度生成图像。

阅读全文 »

全文翻译

摘要

扩散概率模型(DPM)在生成任务中表现出了卓越的性能,但这是以采样效率为代价的。为了在不牺牲质量的前提下提高采样速度,最近提出了各种基于蒸馏的加速采样算法。然而,它们通常需要大量额外的训练成本和模型参数存储,这限制了它们的实际应用。在这项工作中,我们提出了基于主成分分析的自适应搜索(PAS),它用最少的可学习参数和训练成本优化了现有的DPM求解器。具体来说,我们首先使用主成分分析获得几个正交单位基向量来跨越高维采样空间,这使我们能够仅学习一组坐标来校正采样方向;此外,基于累积截断误差呈现“S”形的观察,我们设计了一种自适应搜索策略,进一步提高了采样效率,并将存储的参数数量减少到约10个。大量实验表明,PAS可以以即插即用的方式显著增强现有的快速求解器,且成本可忽略不计。例如,在CIFAR10上,PAS仅需要12个参数,在单个NVIDIA A100 GPU上训练不到1分钟,就可以将DDIM从15.69的FID(NFE=10)优化到4.37。

阅读全文 »

全文翻译

摘要

扩散模型的主要缺点之一是图像生成的推理时间较慢。在解决这个问题的最成功方法中,蒸馏方法表现突出。然而,这些方法需要大量的计算资源。在本文中,我们采用了另一种加速扩散模型的方法。我们对UNet编码器进行了全面研究,并对编码器特征进行了实证分析,从而深入了解了它们在推理过程中的变化。特别地,我们发现编码器特征变化极小,而解码器特征在不同时间步长间表现出显著差异。这一发现促使我们在某些相邻时间步长省略编码器计算,并将先前时间步长的编码器特征重复用作多个时间步长解码器的输入。重要的是,这使我们能够并行执行解码器计算,进一步加速去噪过程。此外,我们引入了一种先验噪声注入方法,以改善生成图像的纹理细节。除了标准的文本到图像任务外,我们还在其他任务上验证了我们的方法:文本到视频、个性化生成和参考引导生成。在不使用任何知识蒸馏技术的情况下,我们的方法分别将Stable Diffusion(SD)和DeepFloyd - IF模型的采样速度提高了41%和24%,将DiT模型的采样速度提高了34%,同时保持了高质量的生成性能。

阅读全文 »

全文翻译

摘要

随着UNet架构的引入,扩散概率模型已成为图像生成任务中的主导力量。UNet的一个关键设计是编码器块和解码器块之间的跳跃连接。尽管跳跃连接已被证明可以提高训练稳定性和模型性能,但我们发现这种捷径可能成为变换复杂性的限制因素。随着采样步骤的减少,生成过程和UNet的作用更接近从高斯分布到目标分布的前推变换,这对网络的复杂性构成了挑战。为了解决这一挑战,我们提出了Skip-Tuning,这是一种简单但效果惊人的无训练调优方法,适用于跳跃连接。我们的方法仅使用19次函数评估(NFE),就可以使ImageNet 64上的预训练EDM的FID提高100%(达到1.75),打破了无论采样步骤如何的ODE采样器的限制。令人惊讶的是,当我们增加采样步骤时,这种改进仍然存在,甚至仅用39次NFE就能超过EDM-2的最佳结果(1.58 vs 1.57)。我们进行了全面的探索性实验,以揭示这种惊人效果的原因。我们观察到,虽然Skip-Tuning增加了像素空间的分数匹配损失,但特征空间的损失却减少了,尤其是在中间噪声水平下,这与图像质量改善的最有效范围一致。

阅读全文 »

全文翻译

摘要

一致性模型(CM)(Song 等人,2023)以样本质量为代价加速了基于分数的扩散模型采样,但缺乏一种自然的方式来权衡质量和速度。为解决这一限制,我们提出了一致性轨迹模型(CTM),这是一个将 CM 和基于分数的模型作为特例包含在内的通用框架。CTM 训练单个神经网络,该网络可以在单次前向传播中输出分数(即对数密度的梯度),并支持在扩散过程的概率流常微分方程(PF ODE)中任意初始时间和结束时间之间进行无限制的遍历。CTM 能够高效结合对抗训练和去噪分数匹配损失以提升性能,在 CIFAR - 10(FID 1.73)和 64×64 分辨率的 ImageNet 上,实现了单步扩散模型采样的最新最先进 FID 结果。CTM 还支持一系列新的采样方案,包括确定性和随机性方案,这些方案涉及沿 ODE 解轨迹的长跳跃。随着计算预算的增加,CTM 持续改善样本质量,避免了 CM 中出现的质量退化问题。此外,与 CM 不同,CTM 对分数函数的访问可以简化扩散社区中已建立的可控/条件生成方法的采用,这种访问还支持似然计算。代码可在 https://github.com/sony/ctm 获得。

阅读全文 »