0%

全文翻译

摘要

我们提出了NitroFusion,这是一种截然不同的单步扩散方法,它通过动态对抗框架实现了高质量生成。尽管单步方法具有显著的速度优势,但与多步方法相比,它们通常存在质量下降的问题。就像一组艺术评论家通过专注于构图、色彩和技巧等不同方面来提供全面反馈一样,我们的方法维持了一个庞大的专业判别器头池,这些判别器头共同指导生成过程。每个判别器组都在不同的噪声水平上培养特定质量方面的专业知识,提供多样化的反馈,从而实现高保真的单步生成。我们的框架结合了:(i)具有专业判别器组的动态判别器池,以提高生成质量;(ii)战略性刷新机制,防止判别器过拟合;(iii)用于多尺度质量评估的全局-局部判别器头,以及用于平衡生成的无条件/条件训练。此外,我们的框架通过自底向上的细化独特地支持灵活部署,允许用户使用相同的模型动态选择1-4个去噪步骤,以直接进行质量-速度权衡。通过全面的实验,我们证明NitroFusion在多个评估指标上显著优于现有的单步方法,尤其在保留精细细节和全局一致性方面表现出色。

阅读全文 »

全文翻译

摘要

扩散Transformer(DiTs)已实现了最先进(SOTA)的图像生成质量,但存在延迟高和内存效率低的问题,使其难以在资源受限的设备上部署。一个主要的效率瓶颈是,现有的DiTs在图像的所有区域上应用了同等的计算量。然而,并非所有图像令牌都同等重要,某些局部区域(如物体)需要更多计算。为解决这一问题,我们提出了DiffCR,这是一种具有可微分压缩比的动态DiT推理框架,它能自动学习为每个图像令牌跨层和跨时间步动态分配计算资源,从而实现高效的DiTs。具体而言,DiffCR集成了三个特性:(1)令牌级路由机制,其中每个DiT层包含一个路由器,该路由器与模型权重联合微调以预测令牌重要性分数。通过这种方式,不重要的令牌可以绕过整个层的计算;(2)层级可微分比率机制,不同的DiT层从零初始化开始自动学习不同的压缩比,使得冗余层的压缩比较大,而其他层的压缩比较小甚至不压缩;(3)时间步级可微分比率机制,每个去噪时间步学习其自身的压缩比。由此产生的模式显示,在噪声较大的时间步压缩比较高,而随着图像变得更清晰,压缩比逐渐降低。在文本到图像和图像修复任务上的大量实验表明,DiffCR有效地捕捉了令牌、层和时间步三个维度的动态性,与先前的工作相比,在生成质量和效率之间取得了更优的权衡。

阅读全文 »

全文翻译

摘要

个性化图像生成需要文本到图像的生成模型捕捉参考主体的核心特征,以便在不同场景下实现可控生成。现有方法面临着训练要求复杂、推理成本高、灵活性有限等挑战,或这些问题的组合。在本文中,我们提出了DreamCache,一种可扩展的高效高质量个性化图像生成方法。通过缓存预训练扩散去噪器的部分层和单个时间步的少量参考图像特征,DreamCache能够通过轻量级的、经过训练的条件适配器动态调制生成图像的特征。DreamCache实现了最先进的图像与文本对齐效果,额外参数数量减少了一个数量级,且比现有模型计算效率更高、用途更广泛。

阅读全文 »

全文翻译

摘要

扩散模型在图像合成领域逐渐崭露头角,展现出卓越的生成能力。然而,由于时间和结构层面的冗余导致推理速度缓慢且网络复杂,阻碍了其在现实场景中的低延迟应用。当前针对扩散模型的加速方法分别聚焦于时间层面和结构层面。但在每个层面进行独立优化以进一步突破加速极限时,会导致性能显著下降。另一方面,整合两个层面的优化可以增强加速效果。遗憾的是,我们发现这两个层面的优化并非完全正交。先进行单独优化再简单整合,会导致性能不理想。为解决这一问题,我们提出了CacheQuant,这是一种全新的无训练范式,通过联合优化模型缓存和量化技术来全面加速扩散模型。具体而言,我们采用动态规划方法确定最优缓存调度,其中仔细考虑了缓存和量化的特性,以最小化误差。此外,我们提出解耦误差校正,逐步减轻耦合和累积的误差。实验结果表明,在MS-COCO数据集上,CacheQuant对Stable Diffusion实现了5.18倍的加速和4倍的压缩,而CLIP分数仅下降0.02。我们的代码已开源。

阅读全文 »

全文翻译

摘要

扩散模型已展现出令人印象深刻的生成能力,特别是在最近借助Transformer架构来提升视觉和艺术质量的进展中。然而,扩散Transformer(DiTs)仍面临推理速度慢的挑战,这主要是由其迭代去噪过程导致的。为解决这一问题,我们提出了BlockDance,这是一种无需训练的方法,它通过探索相邻时间步的特征相似性来加速DiTs。与以往那些缺乏针对不同尺度特征的定制化重用策略的特征重用方法不同,BlockDance优先识别那些结构性最相似的特征,即结构相似的时空(STSS)特征。这些特征主要位于Transformer中专注于结构的块内,且出现在去噪的后期阶段。BlockDance对这些高度相似的特征进行缓存和重用,以减少冗余计算,从而在加速DiTs的同时,最大程度地保证与原始模型生成结果的一致性。此外,考虑到生成内容的多样性以及冗余特征分布的差异性,我们引入了BlockDance-Ada,这是一种轻量级决策网络,专为特定实例的加速而设计。BlockDance-Ada能够动态分配资源,并提供更优的内容质量。事实证明,BlockDance和BlockDance-Ada在各种生成任务和模型上均有效,在保持生成质量的同时,实现了25%至50%的加速。

阅读全文 »

全文翻译

摘要

扩散概率模型(DPMs)已被证明能够生成高质量图像,且无需复杂的对抗训练。然而,当前DPMs中的采样过程容易出现剧烈波动。本文提出了一种受广泛使用的Adam优化器启发的新型DPMs反向采样器。该采样器可直接应用于预训练的扩散模型,通过动量机制和自适应更新来平滑反向采样过程,确保生成的稳定性,从而提升输出质量。通过隐式复用早期步骤的更新方向,所提采样器在高层语义与低层细节之间实现了更好的平衡。此外,该采样器具有灵活性,无论训练时使用何种采样器,都能轻松集成到预训练的DPMs中。在多个基准测试上的实验结果表明,所提反向采样器相较于不同基线方法有显著改进。我们将公开源代码。

阅读全文 »

全文翻译

摘要

尽管扩散模型在许多生成任务上表现出色,但它们需要大量的采样步骤才能生成逼真的样本。这促使社区开发有效的方法,将预训练的扩散模型蒸馏为更高效的模型,但这些方法通常仍需要少步推理,或者性能明显低于基础模型。在本文中,我们提出了分数隐式匹配(SIM),这是一种将预训练扩散模型蒸馏为单步生成器模型的新方法,同时保持与原始模型几乎相同的样本生成能力,并且无需数据——蒸馏过程不需要训练样本。该方法基于这样一个事实:尽管对于生成器模型来说,传统的基于分数的损失难以最小化,但在特定条件下,我们可以高效地计算扩散模型和生成器之间广泛类别的基于分数的散度的梯度。SIM在单步生成器方面表现出强大的实证性能:在CIFAR10数据集上,其无条件生成的FID为2.06,类条件生成的FID为1.96。此外,通过将SIM应用于领先的基于Transformer的扩散模型,我们蒸馏出用于文本到图像(T2I)生成的单步生成器,其美学分数达到6.42,与原始多步模型相比没有性能下降,明显优于其他单步生成器,包括SDXL-TURBO(5.33)、SDXL-LIGHTNING(5.34)和HYPER-SDXL(5.85)。我们将随本文发布这种适用于工业界的基于Transformer的单步T2I生成器。

阅读全文 »

全文翻译

摘要

扩散模型是新兴的具有表现力的生成模型,其中单次图像生成需要大量的时间步(推理步骤)。为了加速这一繁琐过程,均匀减少步骤被认为是扩散模型的无可争议的原则。我们认为这种均匀假设在实践中并非最优解,即我们可以为不同的模型找到不同的最优时间步。因此,我们提出在一个统一的框架中搜索最优时间步序列和压缩模型架构,以实现扩散模型的有效图像生成,而无需任何进一步的训练。具体来说,我们首先设计了一个包含所有可能时间步和各种架构的统一搜索空间。然后,引入两阶段进化算法在设计的搜索空间中寻找最优解。为了进一步加速搜索过程,我们利用生成样本和真实样本之间的FID分数来估计采样示例的性能。结果表明,所提出的方法(i)无需训练,无需任何训练过程即可获得最优时间步和模型架构;(?不是使用了优化算法和NAS求解)(ii)与大多数先进的扩散采样器正交,可以集成以获得更好的样本质量;(iii)具有通用性,搜索到的时间步和架构可以直接应用于具有相同引导尺度的不同扩散模型。实验结果表明,我们的方法仅使用几个时间步就取得了优异的性能,例如在ImageNet 64×64上仅用4步就获得了17.86的FID分数,而DDIM的FID分数为138.66。代码可在https://github.com/lilijiangg/AutoDiffusion获取。

阅读全文 »

全文翻译

摘要

扩散模型(DMs)通过从随机噪声开始并迭代求解反向时间常微分方程(ODE)来从数据分布中创建样本。由于迭代求解的每个步骤都需要进行计算成本高昂的神经函数评估(NFE),因此人们对仅使用几次NFE来近似求解这些扩散ODE(且不修改基础模型)产生了浓厚兴趣。然而,我们观察到在少量NFE的情况下,使用传统的ODE求解器从根本上无法追踪真实的ODE演化。在这项工作中,我们提出了一种新方法,用于学习DM的优秀求解器,我们称之为“求解器求解”(S4S)。S4S通过学习匹配强大教师求解器的输出来直接优化求解器,以获得良好的生成质量。我们在六种不同的预训练DM上评估了S4S,包括用于条件和无条件采样的像素空间和潜空间DM。在所有设置中,相对于传统的ODE求解器,S4S一致地提高了样本质量。此外,我们的方法是轻量级的、无数据的,并且可以作为黑盒插入任何离散化调度或架构之上以提升性能。在此基础上,我们还提出了S4S-Alt,它同时优化求解器和离散化调度。通过利用DM求解器的完整设计空间,在5次NFE的情况下,我们在CIFAR10上实现了3.73的FID,在MS-COCO上实现了13.26的FID,这比之前无训练的ODE方法提升了1.5倍。

阅读全文 »

全文翻译

摘要

在本文中,我们提出了Morse,一种简单的双采样框架,用于无损加速扩散模型。Morse的核心思想是通过利用快速跳跃采样和自适应残差反馈策略,重新构建迭代生成过程(从噪声到数据)。具体而言,Morse包含两个相互交互的模型,称为DashDot。Dash模型只是任何类型的预训练扩散模型,但在跳跃采样机制下运行,为采样效率的提升创造了足够的空间。Dot模型比Dash模型快得多,它经过学习,能够基于Dash模型轨迹上当前跳跃采样点的观测值生成残差反馈,将噪声估计提升到无需跳跃采样即可轻松匹配Dash模型的下一步估计。通过以时间交错的方式链接Dash和Dot模型的输出,Morse展现出在提高整体运行效率的同时,灵活实现所需图像生成性能的优点。借助我们提出的Dash和Dot模型之间的权重共享策略,Morse在训练和推理方面都很高效。在6个图像生成任务上,相对于9个基线扩散模型,我们的方法在广泛的采样步骤预算范围内,平均实现了1.78×至3.31×的无损加速。此外,我们表明,我们的方法还可以推广到改进专为少步文本到图像合成设计的潜在一致性模型(LCM-SDXL,其已通过一致性蒸馏技术进行了加速)。代码和模型可在https://github.com/deep-optimization/Morse获取。

阅读全文 »