0%

全文翻译

摘要

扩散模型已实现卓越的生成质量,但仍受限于高成本的迭代采样过程。近期的无训练加速方法通过复用模型输出来加快扩散进程,然而这些方法忽略了去噪趋势,且缺乏针对模型特异性容差的误差控制,导致多步复用时出现轨迹偏移,并加剧生成结果的不一致性。为解决这些问题,本文提出误差感知趋势一致性(Error-aware Trend Consistency, ETC)框架,该框架具备两大核心功能:1. 引入一致性趋势预测器,利用扩散轨迹的平滑连续性,将历史去噪模式映射为稳定的未来方向,并在多个近似步骤中逐步分配这些方向,从而在实现加速的同时避免轨迹偏移;2. 提出模型特异性误差容差搜索机制,通过识别从波动的语义规划阶段到稳定的质量优化阶段的过渡点,推导修正阈值。实验表明,ETC相较于FLUX模型实现了2.65倍的加速,而生成一致性仅出现微小下降(SSIM评分降低0.074)。注:更多样本与源代码可访问网站https://etcdiff.github.io/

阅读全文 »

全文翻译

摘要

扩散 Transformer(Diffusion Transformers)的应用正受限于其高昂的推理成本。近期,特征缓存(feature caching)技术被提出以解决这一问题,该技术通过复用前一时间步的特征,省去未来时间步的计算过程。然而,以往的特征缓存技术假设相邻时间步的特征具有相似性或连续性,这一假设并非在所有场景下都成立。为探究此问题,本文从频域视角展开分析,结果表明:扩散模型特征中的不同频段在时间步间呈现出截然不同的动态变化规律。具体而言,决定图像结构的低频成分相似性较高,但连续性较差;与之相反,承载图像细节信息的高频成分连续性显著,但相似性较低。这些有趣的发现促使我们提出一种 “频率感知缓存(FreqCa)” 方法。该方法基于低频成分的相似性直接复用其特征,同时利用高频成分的连续性,通过二阶埃尔米特插值器(Hermite interpolator)对易变的高频成分进行预测。此外,本文进一步提出缓存 “累积残差特征(Cumulative Residual Feature, CRF)”,而非所有层的特征,此举将特征缓存的内存占用降低了 99%。在 FLUX.1-dev、FLUX.1-Kontext-dev、Qwen-Image 和 Qwen-Image-Edit 等模型上开展的大量实验表明,该方法在图像生成与编辑任务中均具有良好效果。相关代码已收录于补充材料,并将在 GitHub 上发布

阅读全文 »

全文翻译

摘要

我们研究了基于常微分方程(ODE)采样器的预训练扩散模型在测试阶段与任务特定奖励的对齐问题。我们从受直接偏好优化(DPO)启发的基于能量的分布出发,提出了一种推理阶段朗之万细化方法:该方法在图像/ latent(潜变量)空间中,将标准的确定性去噪更新与奖励引导的修正交替进行。该流程对于常见的ODE求解器具有“即插即用”特性,无需额外训练或数据,且可适配任意可微奖励模型——包括人类偏好奖励模型、美学评分或安全性评分,以及基于CLIP的奖励模型。从实验结果来看,在多个数据集和不同奖励模型上,该方法在测试阶段均能持续提升奖励值。最终形成的是一种轻量级的“采样即对齐”方法:它能将预训练扩散模型转化为追求奖励的生成器,在无需微调数据、额外训练或架构修改的情况下提升生成质量。

阅读全文 »

全文翻译

摘要

扩散概率模型(DPMs)在高分辨率图像合成方面展现出了极具前景的能力。然而,从预训练的扩散概率模型中进行采样过程耗时较长,这是由于需要对去噪网络进行多次评估,因此加速扩散概率模型的采样过程变得越来越重要。尽管近年来在设计快速采样器方面取得了一定进展,但在许多青睐更少采样步骤(例如,少于10步)的应用场景中,现有方法仍然无法生成令人满意的图像。在本文中,我们提出了一种统一校正器(UniC),它可以在任何现有扩散概率模型采样器之后应用,无需额外的模型评估就能提高精度阶数,并且作为副产品还得到了一种支持任意阶数的统一预测器(UniP)。结合统一预测器和统一校正器,我们提出了一种用于扩散概率模型快速采样的统一预测-校正框架,称为UniPC。该框架对于任意阶数都具有统一的解析形式,并且与以往方法相比,能够显著提高采样质量,尤其是在极少的采样步骤下。我们通过大量实验对所提方法进行了评估,包括使用像素空间和潜在空间扩散概率模型进行的无条件采样和条件采样。我们的UniPC仅通过10次函数评估,在CIFAR10数据集(无条件采样)上就能达到3.87的FID值,在ImageNet 256×256数据集(条件采样)上能达到7.51的FID值。相关代码可在https://github.com/wl-zhao/UniPC获取。

阅读全文 »

全文翻译

摘要

本文提出的“判别器引导(Discriminator Guidance)”方法旨在改进预训练扩散模型的样本生成质量。该方法引入一个判别器,对去噪样本路径的真实性进行显式监督。与生成对抗网络(GANs)不同,我们的方法无需对分数网络和判别器网络进行联合训练。相反,我们在分数网络训练完成后再训练判别器,这使得判别器的训练过程更加稳定且收敛速度更快。在样本生成阶段,我们在预训练的分数中添加一个辅助项以“欺骗”判别器。在最优判别器条件下,该辅助项能将模型分数修正为数据分数,这意味着判别器以互补的方式帮助实现更优的分数估计。通过我们的算法,在ImageNet 256x256数据集上取得了当前最优结果,FID值为1.83,召回率为0.64,与验证集数据的FID(1.68)和召回率(0.66)相当。我们已在https://github.com/alsdudrla10/DG发布相关代码。

阅读全文 »

全文翻译

摘要

潜在一致性模型(LCMs)(Luo 等人,2023)在加速文本到图像生成任务方面取得了令人瞩目的性能,仅需极少的推理步骤就能生成高质量图像。LCMs 由预训练的潜在扩散模型(LDMs)蒸馏而来,仅需约 32 个 A100 GPU 训练小时。本报告从两个方面进一步拓展了 LCMs 的潜力:首先,通过将 LoRA 蒸馏应用于 Stable-Diffusion 模型(包括 SD-V1.5(Rombach 等人,2022)、SSD-1B(Segmind.,2023)和 SDXL(Podell 等人,2023)),我们将 LCM 的适用范围扩展到更大的模型,同时显著降低了内存消耗,实现了更优异的图像生成质量。其次,我们将通过 LCM 蒸馏获得的 LoRA 参数确定为一种通用的 Stable-Diffusion 加速模块,并命名为 LCM-LoRA。LCM-LoRA 无需训练即可直接嵌入到各种 Stable-Diffusion 微调模型或 LoRAs 中,因此成为适用于多种图像生成任务的通用加速器。与之前的数值 PF-ODE 求解器(如 DDIM(Song 等人,2020)、DPM-Solver(Lu 等人,2022a;b))相比,LCM-LoRA 可被视为一种具有强泛化能力的插件式神经 PF-ODE 求解器。项目页面:https://github.com/luosiallen/latent-consistency-model

阅读全文 »

全文翻译

摘要

扩散模型作为一类新型生成模型近年来备受关注。尽管取得了成功,但这类模型存在一个显著缺陷——采样速度缓慢,需要进行数百甚至数千次函数评估(NFE)。为此,研究人员探索了无学习(learning-free)和有学习(learning-based)两类采样策略来加速采样过程。无学习采样基于扩散常微分方程(ODE)的公式表述,采用各种常微分方程求解器。然而,该方法在准确追踪真实采样轨迹方面面临挑战,尤其是在函数评估次数较少的情况下。相反,基于知识蒸馏等有学习采样方法需要大量额外训练,限制了其实用性。为克服这些局限性,我们提出了蒸馏型常微分方程求解器(D-ODE求解器),这是一种基于常微分方程求解器公式表述的简洁蒸馏方法。该方法无缝融合了无学习采样和有学习采样的优势。

D-ODE求解器通过对现有常微分方程求解器进行单一参数调整构建而成。此外,我们利用知识蒸馏技术,从大步数常微分方程求解器中提取知识,优化小步数D-ODE求解器,并在一批样本上完成这一过程。综合实验表明,与现有常微分方程求解器(包括DDIM、PNDM、DPM-Solver、DEIS和EDM)相比,D-ODE求解器性能更优,尤其在函数评估次数较少的场景中表现突出。值得注意的是,与以往蒸馏技术相比,我们的方法计算开销可忽略不计,便于与现有采样器快速集成。定性分析表明,D-ODE求解器不仅能提升图像质量,还能忠实遵循目标常微分方程轨迹。

阅读全文 »

全文翻译

摘要

扩散模型(DMs)已实现了最先进的生成性能,但由于其序列去噪特性,存在较高的采样延迟问题。现有的基于求解器的加速方法在低延迟预算下往往会面临图像质量下降的问题。在本文中,我们提出了集成并行方向求解器(简称EPD-Solver),这是一种新型常微分方程(ODE)求解器,通过在每个ODE步骤中融入多个并行梯度评估来减轻截断误差。重要的是,由于额外的梯度计算是相互独立的,它们可以完全并行化,从而保持低延迟采样。我们的方法以蒸馏的方式优化一小组可学习参数,确保训练开销最小化。此外,我们的方法还可作为插件来改进现有的ODE采样器。在各种图像合成基准测试上的大量实验表明,我们的EPD-Solver在实现高质量、低延迟采样方面是有效的。例如,在5次函数评估(NFE)的相同延迟水平下,EPD在CIFAR-10数据集上的FID值为4.47,在FFHQ数据集上为7.97,在ImageNet数据集上为8.17,在LSUN Bedroom数据集上为8.26,大幅超越了现有的基于学习的求解器。相关代码可在https://github.com/BeierZhu/EPD获取。

阅读全文 »

全文翻译

摘要

扩散模型凭借其卓越的生成能力,近期在图像合成领域获得了前所未有的关注。尽管性能强大,但这些模型通常会产生高昂的计算成本,这主要归因于其序列性去噪过程和庞大的模型规模。传统的扩散模型压缩方法通常需要大量的再训练,存在成本和可行性方面的挑战。在本文中,我们提出了DeepCache,这是一种全新的无需训练的范式,它从模型架构的角度加速扩散模型。DeepCache利用了扩散模型序列性去噪步骤中固有的时间冗余性,通过在相邻去噪阶段缓存和检索特征,从而减少冗余计算。借助U-Net的特性,我们在以极低成本更新低层级特征的同时,重用高层级特征。这种创新策略使得Stable Diffusion v1.5的速度提升了2.3倍,而CLIP分数仅下降0.05;LDM-4-G在ImageNet上的速度提升了4.1倍,FID仅轻微下降0.22。我们的实验还表明,DeepCache优于现有的需要再训练的剪枝和蒸馏方法,并且与当前的采样技术兼容。此外,我们发现,在相同的吞吐量下,DeepCache与DDIM或PLMS结合时,能够取得相当甚至略有提升的结果。代码可在https://github.com/horseee/DeepCache获取。

阅读全文 »