0%

全文翻译

摘要

在本文中,我们揭示了扩散U-Net中未被充分利用的潜力,它可作为一种“免费午餐”,在不增加计算成本的情况下显著提升生成质量。我们首先研究了U-Net架构在去噪过程中的关键贡献,发现其主骨干主要负责去噪,而跳跃连接主要将高频特征引入解码器模块,导致网络忽略了骨干的语义信息。基于这一发现,我们提出了一种简单而有效的方法——称为“FreeU”,它无需额外的训练或微调即可提高生成质量。我们的核心见解是策略性地重新加权来自U-Net跳跃连接和骨干特征图的贡献,以利用U-Net架构两个组件的优势。在图像和视频生成任务上的实验结果表明,我们的FreeU可以轻松集成到现有的扩散模型中,例如Stable Diffusion、DreamBooth、ModelScope、Rerender和ReVersion,只需几行代码即可提高生成质量。你所需要做的就是在推理过程中调整两个缩放因子。项目页面:https://chenyangsi.top/FreeU/

阅读全文 »

全文翻译

摘要

基于扩散的生成模型在各种任务中展现出了强大的性能,但其代价是采样速度缓慢。为了实现高效且高质量的合成,最近开发了各种基于蒸馏的加速采样方法。然而,这些方法通常需要通过精心设计进行耗时的微调,才能在特定的函数评估次数(NFE)下取得令人满意的性能,这使得它们在实际应用中难以使用。为了解决这个问题,我们提出了扩散模型的简单快速蒸馏(SFD)方法,它简化了现有方法中使用的范式,并将微调时间大幅缩短了1000倍。我们从一种基于普通蒸馏的采样方法开始,通过识别和解决几个影响合成效率和质量的微小但关键的因素,将其性能提升到了最先进的水平。我们的方法还可以使用单个蒸馏模型实现可变NFE的采样。大量实验表明,SFD在少步图像生成任务中,在样本质量和微调成本之间取得了良好的平衡。例如,SFD在CIFAR-10上仅用单个NVIDIA A100 GPU进行0.64小时的微调,就实现了4.53的FID(NFE=2)。我们的代码可在https://github.com/zju-pi/diff-sampler获取。

阅读全文 »

全文翻译

摘要

我们提出了一个用于单步生成建模的有原则且有效的框架。与Flow Matching方法所建模的瞬时速度不同,我们引入了平均速度的概念来刻画流场。我们推导了平均速度和瞬时速度之间明确的恒等式,并将其用于指导神经网络训练。我们的方法被称为MeanFlow模型,它是自包含的,不需要预训练、蒸馏或课程学习。MeanFlow在实验中表现出了强大的性能:在ImageNet 256×256上,从头开始训练的模型通过单次函数评估(1-NFE)实现了3.43的FID,显著优于之前最先进的单步扩散/流模型。我们的研究大幅缩小了单步扩散/流模型与其多步前身之间的差距,希望能激励未来的研究重新审视这些强大模型的基础。

阅读全文 »

全文翻译

基于扩散的生成模型利用随机微分方程(SDE)及其等效的常微分方程(ODE),在复杂数据分布和易处理的先验分布之间建立平滑连接。在本文中,我们揭示了扩散模型基于ODE的采样过程中几个有趣的轨迹特性。我们刻画了一个隐式去噪轨迹,并讨论了其在形成具有强形状规律性的耦合采样轨迹中所起的关键作用,且该作用与生成内容无关。我们还描述了一种基于动态规划的方案,使采样中的时间安排能更好地适应底层轨迹结构。这一简单策略对任何给定的基于ODE的数值求解器只需进行最小修改,且计算成本可忽略不计,同时在图像生成中表现出优异性能,尤其是在5~10次函数评估时。

阅读全文 »

Here's something encrypted, password is required to continue reading.
阅读全文 »

全文翻译

摘要

无分类器引导扩散模型最近在高分辨率图像生成方面表现出了高效性,并已广泛应用于包括DALL·E 2、Stable Diffusion和Imagen在内的大规模扩散框架中。然而,无分类器引导扩散模型的一个缺点是其推理时计算成本较高,因为生成一个样本需要对两个扩散模型(条件模型和无条件模型)进行数十到数百次评估。为解决这一限制,我们提出了一种将无分类器引导扩散模型蒸馏为快速采样模型的方法:给定一个预训练的无分类器引导模型,我们首先训练一个单一模型来匹配条件模型和无条件模型的联合输出,然后逐步将该模型蒸馏为一个所需采样步骤更少的扩散模型。对于在像素空间训练的标准扩散模型,我们的方法仅需4步采样即可生成与原始模型视觉效果相当的图像,在ImageNet 64x64和CIFAR-10数据集上实现了与原始模型相当的FID/IS分数,同时采样速度提高了256倍。对于在隐空间训练的扩散模型(如Stable Diffusion),我们的方法仅需1-4步去噪即可生成高保真图像,在ImageNet 256x256和LAION数据集上的推理速度比现有方法至少提高10倍。我们进一步在文本引导的图像编辑和修复任务中展示了该方法的有效性,其中蒸馏后的模型仅需2-4步去噪即可生成高质量结果。

阅读全文 »

全文翻译

摘要

从扩散模型中采样可被视为求解相应的常微分方程(ODE),目标是在尽可能少的函数评估次数(NFE)下获得精确解。最近,各种利用高阶ODE求解器的快速采样器不断涌现,其性能优于最初的一阶采样器。然而,这些数值方法本身会产生一定的近似误差,在NFE极少(例如约5次)的情况下,会显著降低样本质量。相比之下,基于几何观察发现,每条采样轨迹几乎都位于嵌入环境空间的二维子空间中,我们提出了近似平均方向求解器(AMEDSolver),通过直接学习快速扩散采样的平均方向来消除截断误差。此外,我们的方法可轻松用作插件,进一步提升现有的基于ODE的采样器性能。在分辨率从32到512的图像合成实验中,大量实验证明了我们方法的有效性。仅需5次NFE,我们在CIFAR-10数据集上实现了6.61的FID(弗雷歇 inception距离),在64×64分辨率的ImageNet数据集上达到10.74的FID,在LSUN卧室数据集上获得13.20的FID。我们的代码可在https://github.com/zju-pi/diff-sampler获取。

阅读全文 »

全文翻译

摘要

扩散模型和流匹配模型通过学习将噪声转化为数据,能够生成多样且逼真的图像。然而,从这些模型中采样需要经过神经网络多次迭代去噪,这使得生成过程缓慢且成本高昂。以往加速采样的方法需要复杂的训练机制,如多阶段训练、使用多个网络或采用不稳定的调度策略。我们引入了快捷模型(shortcut models),这是一类生成模型,它使用单个网络和单一训练阶段,在单次或多次采样步骤中生成高质量样本。快捷模型不仅根据当前噪声水平对网络进行条件设定,还依据期望的步长进行调整,使模型能够在生成过程中实现快速推进。在各种采样步长预算下,快捷模型始终能比一致性模型(consistency models)和重流模型(reflow)等先前方法生成更高质量的样本。与蒸馏方法相比,快捷模型将复杂度降低到单个网络和单一训练阶段,并且在推理时允许灵活改变步长预算。

阅读全文 »

欧拉方法

回到 Euler 方法的基本思想——用差商代替导数——上来。实际上,按照微分中值定理应有

注意到方程 $y’ = f(x,y)$ 就有

不妨记 $\overline{K}=f(x_{n}+\theta h,y(x_{n}+\theta h))$,称为区间 $[x_{n},x_{n + 1}]$ 上的平均斜率。可见给出一种斜率 $\overline{K}$,(13)式就对应地导出一种算法。

向前 Euler 公式简单地取 $f(x_{n},y_{n})$ 为 $\overline{K}$,精度自然很低。改进的 Euler 公式可理解为 $\overline{K}$ 取 $f(x_{n},y_{n})$,$f(x_{n + 1},\overline{y}_{n + 1})$ 的平均值,其中 $\overline{y}_{n + 1}=y_{n}+hf(x_{n},y_{n})$,这种处理提高了精度。

阅读全文 »