0%

全文翻译

摘要

扩散模型的主要缺点之一是图像生成的推理时间较慢。在解决这个问题的最成功方法中,蒸馏方法表现突出。然而,这些方法需要大量的计算资源。在本文中,我们采用了另一种加速扩散模型的方法。我们对UNet编码器进行了全面研究,并对编码器特征进行了实证分析,从而深入了解了它们在推理过程中的变化。特别地,我们发现编码器特征变化极小,而解码器特征在不同时间步长间表现出显著差异。这一发现促使我们在某些相邻时间步长省略编码器计算,并将先前时间步长的编码器特征重复用作多个时间步长解码器的输入。重要的是,这使我们能够并行执行解码器计算,进一步加速去噪过程。此外,我们引入了一种先验噪声注入方法,以改善生成图像的纹理细节。除了标准的文本到图像任务外,我们还在其他任务上验证了我们的方法:文本到视频、个性化生成和参考引导生成。在不使用任何知识蒸馏技术的情况下,我们的方法分别将Stable Diffusion(SD)和DeepFloyd - IF模型的采样速度提高了41%和24%,将DiT模型的采样速度提高了34%,同时保持了高质量的生成性能。

阅读全文 »

全文翻译

摘要

随着UNet架构的引入,扩散概率模型已成为图像生成任务中的主导力量。UNet的一个关键设计是编码器块和解码器块之间的跳跃连接。尽管跳跃连接已被证明可以提高训练稳定性和模型性能,但我们发现这种捷径可能成为变换复杂性的限制因素。随着采样步骤的减少,生成过程和UNet的作用更接近从高斯分布到目标分布的前推变换,这对网络的复杂性构成了挑战。为了解决这一挑战,我们提出了Skip-Tuning,这是一种简单但效果惊人的无训练调优方法,适用于跳跃连接。我们的方法仅使用19次函数评估(NFE),就可以使ImageNet 64上的预训练EDM的FID提高100%(达到1.75),打破了无论采样步骤如何的ODE采样器的限制。令人惊讶的是,当我们增加采样步骤时,这种改进仍然存在,甚至仅用39次NFE就能超过EDM-2的最佳结果(1.58 vs 1.57)。我们进行了全面的探索性实验,以揭示这种惊人效果的原因。我们观察到,虽然Skip-Tuning增加了像素空间的分数匹配损失,但特征空间的损失却减少了,尤其是在中间噪声水平下,这与图像质量改善的最有效范围一致。

阅读全文 »

全文翻译

摘要

一致性模型(CM)(Song 等人,2023)以样本质量为代价加速了基于分数的扩散模型采样,但缺乏一种自然的方式来权衡质量和速度。为解决这一限制,我们提出了一致性轨迹模型(CTM),这是一个将 CM 和基于分数的模型作为特例包含在内的通用框架。CTM 训练单个神经网络,该网络可以在单次前向传播中输出分数(即对数密度的梯度),并支持在扩散过程的概率流常微分方程(PF ODE)中任意初始时间和结束时间之间进行无限制的遍历。CTM 能够高效结合对抗训练和去噪分数匹配损失以提升性能,在 CIFAR - 10(FID 1.73)和 64×64 分辨率的 ImageNet 上,实现了单步扩散模型采样的最新最先进 FID 结果。CTM 还支持一系列新的采样方案,包括确定性和随机性方案,这些方案涉及沿 ODE 解轨迹的长跳跃。随着计算预算的增加,CTM 持续改善样本质量,避免了 CM 中出现的质量退化问题。此外,与 CM 不同,CTM 对分数函数的访问可以简化扩散社区中已建立的可控/条件生成方法的采用,这种访问还支持似然计算。代码可在 https://github.com/sony/ctm 获得。

阅读全文 »

全文翻译

摘要

在本文中,我们揭示了扩散U-Net中未被充分利用的潜力,它可作为一种“免费午餐”,在不增加计算成本的情况下显著提升生成质量。我们首先研究了U-Net架构在去噪过程中的关键贡献,发现其主骨干主要负责去噪,而跳跃连接主要将高频特征引入解码器模块,导致网络忽略了骨干的语义信息。基于这一发现,我们提出了一种简单而有效的方法——称为“FreeU”,它无需额外的训练或微调即可提高生成质量。我们的核心见解是策略性地重新加权来自U-Net跳跃连接和骨干特征图的贡献,以利用U-Net架构两个组件的优势。在图像和视频生成任务上的实验结果表明,我们的FreeU可以轻松集成到现有的扩散模型中,例如Stable Diffusion、DreamBooth、ModelScope、Rerender和ReVersion,只需几行代码即可提高生成质量。你所需要做的就是在推理过程中调整两个缩放因子。项目页面:https://chenyangsi.top/FreeU/

阅读全文 »

全文翻译

摘要

基于扩散的生成模型在各种任务中展现出了强大的性能,但其代价是采样速度缓慢。为了实现高效且高质量的合成,最近开发了各种基于蒸馏的加速采样方法。然而,这些方法通常需要通过精心设计进行耗时的微调,才能在特定的函数评估次数(NFE)下取得令人满意的性能,这使得它们在实际应用中难以使用。为了解决这个问题,我们提出了扩散模型的简单快速蒸馏(SFD)方法,它简化了现有方法中使用的范式,并将微调时间大幅缩短了1000倍。我们从一种基于普通蒸馏的采样方法开始,通过识别和解决几个影响合成效率和质量的微小但关键的因素,将其性能提升到了最先进的水平。我们的方法还可以使用单个蒸馏模型实现可变NFE的采样。大量实验表明,SFD在少步图像生成任务中,在样本质量和微调成本之间取得了良好的平衡。例如,SFD在CIFAR-10上仅用单个NVIDIA A100 GPU进行0.64小时的微调,就实现了4.53的FID(NFE=2)。我们的代码可在https://github.com/zju-pi/diff-sampler获取。

阅读全文 »

全文翻译

摘要

我们提出了一个用于单步生成建模的有原则且有效的框架。与Flow Matching方法所建模的瞬时速度不同,我们引入了平均速度的概念来刻画流场。我们推导了平均速度和瞬时速度之间明确的恒等式,并将其用于指导神经网络训练。我们的方法被称为MeanFlow模型,它是自包含的,不需要预训练、蒸馏或课程学习。MeanFlow在实验中表现出了强大的性能:在ImageNet 256×256上,从头开始训练的模型通过单次函数评估(1-NFE)实现了3.43的FID,显著优于之前最先进的单步扩散/流模型。我们的研究大幅缩小了单步扩散/流模型与其多步前身之间的差距,希望能激励未来的研究重新审视这些强大模型的基础。

阅读全文 »

全文翻译

基于扩散的生成模型利用随机微分方程(SDE)及其等效的常微分方程(ODE),在复杂数据分布和易处理的先验分布之间建立平滑连接。在本文中,我们揭示了扩散模型基于ODE的采样过程中几个有趣的轨迹特性。我们刻画了一个隐式去噪轨迹,并讨论了其在形成具有强形状规律性的耦合采样轨迹中所起的关键作用,且该作用与生成内容无关。我们还描述了一种基于动态规划的方案,使采样中的时间安排能更好地适应底层轨迹结构。这一简单策略对任何给定的基于ODE的数值求解器只需进行最小修改,且计算成本可忽略不计,同时在图像生成中表现出优异性能,尤其是在5~10次函数评估时。

阅读全文 »

全文翻译

摘要

无分类器引导扩散模型最近在高分辨率图像生成方面表现出了高效性,并已广泛应用于包括DALL·E 2、Stable Diffusion和Imagen在内的大规模扩散框架中。然而,无分类器引导扩散模型的一个缺点是其推理时计算成本较高,因为生成一个样本需要对两个扩散模型(条件模型和无条件模型)进行数十到数百次评估。为解决这一限制,我们提出了一种将无分类器引导扩散模型蒸馏为快速采样模型的方法:给定一个预训练的无分类器引导模型,我们首先训练一个单一模型来匹配条件模型和无条件模型的联合输出,然后逐步将该模型蒸馏为一个所需采样步骤更少的扩散模型。对于在像素空间训练的标准扩散模型,我们的方法仅需4步采样即可生成与原始模型视觉效果相当的图像,在ImageNet 64x64和CIFAR-10数据集上实现了与原始模型相当的FID/IS分数,同时采样速度提高了256倍。对于在隐空间训练的扩散模型(如Stable Diffusion),我们的方法仅需1-4步去噪即可生成高保真图像,在ImageNet 256x256和LAION数据集上的推理速度比现有方法至少提高10倍。我们进一步在文本引导的图像编辑和修复任务中展示了该方法的有效性,其中蒸馏后的模型仅需2-4步去噪即可生成高质量结果。

阅读全文 »

全文翻译

摘要

从扩散模型中采样可被视为求解相应的常微分方程(ODE),目标是在尽可能少的函数评估次数(NFE)下获得精确解。最近,各种利用高阶ODE求解器的快速采样器不断涌现,其性能优于最初的一阶采样器。然而,这些数值方法本身会产生一定的近似误差,在NFE极少(例如约5次)的情况下,会显著降低样本质量。相比之下,基于几何观察发现,每条采样轨迹几乎都位于嵌入环境空间的二维子空间中,我们提出了近似平均方向求解器(AMEDSolver),通过直接学习快速扩散采样的平均方向来消除截断误差。此外,我们的方法可轻松用作插件,进一步提升现有的基于ODE的采样器性能。在分辨率从32到512的图像合成实验中,大量实验证明了我们方法的有效性。仅需5次NFE,我们在CIFAR-10数据集上实现了6.61的FID(弗雷歇 inception距离),在64×64分辨率的ImageNet数据集上达到10.74的FID,在LSUN卧室数据集上获得13.20的FID。我们的代码可在https://github.com/zju-pi/diff-sampler获取。

阅读全文 »