全文翻译
摘要
我们提出了NitroFusion,这是一种截然不同的单步扩散方法,它通过动态对抗框架实现了高质量生成。尽管单步方法具有显著的速度优势,但与多步方法相比,它们通常存在质量下降的问题。就像一组艺术评论家通过专注于构图、色彩和技巧等不同方面来提供全面反馈一样,我们的方法维持了一个庞大的专业判别器头池,这些判别器头共同指导生成过程。每个判别器组都在不同的噪声水平上培养特定质量方面的专业知识,提供多样化的反馈,从而实现高保真的单步生成。我们的框架结合了:(i)具有专业判别器组的动态判别器池,以提高生成质量;(ii)战略性刷新机制,防止判别器过拟合;(iii)用于多尺度质量评估的全局-局部判别器头,以及用于平衡生成的无条件/条件训练。此外,我们的框架通过自底向上的细化独特地支持灵活部署,允许用户使用相同的模型动态选择1-4个去噪步骤,以直接进行质量-速度权衡。通过全面的实验,我们证明NitroFusion在多个评估指标上显著优于现有的单步方法,尤其在保留精细细节和全局一致性方面表现出色。
1. 引言
近年来,加速扩散模型的研究进展[14, 15, 21, 27, 29, 49, 51, 58]表明,通过大幅减少步骤数量,高质量图像生成成为可能。尽管目前已有多种方法实现了单步生成[23, 32, 37, 42, 52, 53, 56],但与多步方法相比,它们在质量上仍面临巨大挑战,尤其是在保留精细细节和确保全局连贯性方面。这种质量差距限制了单步方法的实际应用,特别是在既需要速度又需要高保真度的场景中。
单步扩散的核心挑战在于将整个去噪轨迹[25, 57]压缩为单一变换。基于蒸馏的传统方法[39, 46]往往难以奏效,因为它们试图直接匹配中间状态或分布,导致输出模糊且细节丢失。最近的对抗性方法[13, 42, 43, 52]虽展现出潜力,但在推向单步生成时面临训练不稳定性和多样性崩溃的问题。
NitroFusion提出了一种截然不同的单步扩散方法——动态对抗框架。试想一组艺术评论家如何评价一幅画:每位评论家专注于构图、色彩、技巧和细节等不同方面。同样,我们没有依赖可能迅速变得过度自信的单一判别器[8, 12, 30, 31],而是维持了一个庞大的、动态的专业判别器组池,这些判别器组在冻结的UNet骨干网络[38]之上运行。正如多样化的评论家小组能提供比单一评委更全面的反馈,我们的判别器集合通过在不同噪声水平[23]和空间尺度上提供专业反馈,引导生成器产出高质量结果。
我们的框架通过三项技术创新实现这一理念:(i)动态判别器池架构——利用教师模型的UNet编码器作为冻结特征提取器,并配备多个针对不同噪声水平t*的轻量级专业判别器组,以提升生成质量;(ii)战略性刷新机制——随机重新初始化约1%的判别器头,同时保留池中的集体知识分布,防止判别器过拟合(这是GAN训练中的常见失效模式),同时维持稳定的对抗性反馈;(iii)多尺度策略与双重训练目标——全局和局部判别器头按1:2的比例划分,全局头评估H×W分辨率下的整体图像连贯性,局部头检查h×w大小补丁中的细粒度细节,再结合无条件/条件训练实现平衡生成。
这些技术组件共同解决了单步生成的根本挑战。动态判别器池与刷新机制协同工作,在整个训练过程中维持平衡的反馈系统——当已建立的判别器头提供一致反馈时,新头的周期性引入防止系统变得过于僵化或可预测。多尺度策略则补充了这一动态反馈系统,使我们的生成器能够实现以往方法无法实现的目标:在单步内将噪声转化为高质量图像,同时避免通常困扰快速生成方法的伪影和质量下降问题。
值得注意的是,与需要为不同步骤数量使用单独模型的现有方法[23, 37, 52]不同,我们的框架通过自底向上的细化独特地支持灵活部署。虽然我们主要针对单步生成进行优化,但我们的模型独特地支持动态细化——如果需要更高质量,用户可以按需添加步骤(最多4步),且始终使用相同的模型权重。
通过广泛实验,我们证明NitroFusion始终能生成比现有单步方法更清晰、更详细的图像。我们的方法不仅达到甚至常常超过最新快速扩散模型的质量指标,同时保持单步生成的速度优势。人类评估研究进一步证实了我们结果的卓越视觉质量,尤其在面部细节和纹理保留等挑战性领域表现突出。
我们的主要贡献包括:(i)具有专业判别器组的动态判别器池,用于提升生成质量;(ii)防止判别器过拟合的战略性刷新机制;(iii)具有双重训练目标的多尺度策略,有效平衡提示对齐与图像连贯性。此外,我们通过支持同一模型权重下的1-4步去噪,独特地实现了灵活部署。
2. 相关工作
2.1. 时间步蒸馏
时间步蒸馏通过减少高质量输出所需的采样步骤,加速了扩散模型的推理过程。标准方法[14, 15, 27, 29, 32, 49, 51, 56, 58]将多步教师模型蒸馏为步骤更少的学生模型。一种常见策略是在减少的步骤数内近似教师模型的采样轨迹(建模为常微分方程(ODE))。这可以通过在每个时间步保留[57]原始ODE路径,或者重新构建[25, 42]并直接从最终输出中学习更高效的轨迹来实现。最近的研究训练了一系列这样的学生模型,逐步减少采样步骤[28, 39],同时加强自一致性[21, 46]。Hyper-SD[37]进一步结合了ODE保留和重构方法。然而,这些模型通常由于有限的模型拟合能力而面临质量下降的问题。与流引导蒸馏不同,分布匹配蒸馏(DMD)[52, 53]通过最小化生成分布和目标分布之间的Kullback-Leibler(KL)散度,直接在样本域上匹配分布。尽管取得了这些进展,但在单步蒸馏中实现高保真度仍然具有挑战性,因为这些模型在极端少步设置中经常遇到退化和不稳定性问题。
2.2. 对抗性蒸馏
对抗性扩散蒸馏(ADD)[42, 43]引入了GAN训练,以解决基于均方误差(MSE)的蒸馏在少步生成中常导致输出模糊的局限性。通常,预训练的特征提取器[33]被用作判别器骨干,以获得稳定的、具有判别性的特征[41]。例如,SDXL-Lightning[23]使用预训练扩散模型的编码器作为判别器骨干,在真实/虚假判断之前注入噪声作为一种增强形式[23]。最近的研究[9, 21, 52]进一步将对抗性损失与蒸馏目标相结合,以提高图像保真度。然而,对抗性损失带来了自身的挑战,包括训练不稳定性和多样性降低[9]。判别器的快速学习可能导致过度自信的评估,限制了对生成器的建设性反馈,并导致次优的训练动态。克服这些挑战是我们工作的主要目标。
2.3. 多判别器训练
具有多个判别器的GAN通过引入多样化的对抗性反馈,减少了模式崩溃并增强了训练稳定性。已经开发了各种策略来平衡多个判别器目标,包括softmax加权集成[12]和三方极小极大博弈[31]。为了解决判别器的过度自信问题,Neyshabur等人[30]为每个判别器应用低维随机投影,而MCL-GAN[8]则引入了多选学习。StyleGAN-XL[40]和StyleGAN-T[41]使用多个判别器头以及冻结的预训练骨干,能够通过特征金字塔提供反馈,以捕捉不同层次的细节。尽管这些多判别器方法解决了GAN训练中的挑战,但在扩散蒸馏中仍未得到充分探索。我们的方法基于这些见解,引入了一个强大的对抗性框架,为高保真单步扩散蒸馏提供多样化和动态的反馈。
3. 方法
为实现单步扩散,我们采用了时间步蒸馏的概念。在这里,一个单步学生模型被训练到与预训练的多步教师模型性能相当。训练完成后,该单步学生模型可独立用于超快速推理。与依赖分数匹配[53]或流匹配[25]来对齐学生模型与教师模型质量的传统方法不同,我们的方法仅使用对抗性损失来评判教师模型和学生模型的预测结果——就像一组评论家评价画作一样。这有助于我们对齐教师模型和学生模型的分布,使学生模型能在单步内模仿教师模型,且不会出现质量下降。
具体而言,我们提出了一种动态对抗框架,包括:(i)一个庞大的判别器头池,其中包含针对不同噪声水平和质量的专用判别器,减少了单一判别器设置带来的反馈偏差;(ii)周期性的池刷新,随机重新初始化一部分判别器,以防止过拟合;(iii)多尺度双目标GAN训练,减少伪影,平衡图像连贯性与提示对齐。图2和图3展示了我们的训练流程。预备知识:扩散模型[19]通过逆转一个将输入样本x₀逐步转化为噪声的前向过程,迭代地优化数据样本中的噪声。在前向过程中,每个带噪样本xₜ是在时间步t∈{1,…,T}时,通过高斯噪声ϵ~N(0,I)从x₀得到的,公式如下:
其中,$\overline{\alpha}_t$是控制噪声水平的方差调度[19,45]。由神经网络$G_θ$参数化的反向过程经过训练,可从xₜ预测噪声ϵ,进而重建x₀。利用预测的噪声$\hat{ϵ}=G_θ(x_t,t)$,x₀的重建公式为:
3.1 单步对抗性扩散蒸馏
我们的训练流程包含一个单步学生(生成器)$G_θ$和一个预训练的多步教师模型$G_ψ$。
我们使用预训练的单步权重[37,52]初始化学生模型,以缩短收敛时间。在每个训练迭代中,$G_θ$和$G_ψ$分别将带噪样本$x_T$~N(0,I)去噪为$\hat{x}_0$和x₀。教师模型$G_ψ$的去噪过程需要多步,而我们的学生模型$G_θ$仅需一步就能直接将$x_T$去噪为x₀(见图2)。判别器D试图区分x₀(真实)和$\hat{x}_0$(伪造),从而构建对抗性损失$L_{adv}$:
3.2 动态判别器池
在先前工作[52]的基础上,我们利用教师模型[38]的UNet编码器和中间块作为冻结的判别器骨干ε,用于提取图像特征(见图3)。通常,这需要先将输入x₀在预定义的噪声水平$t^$下加噪为$x_{t^}$,然后将其去噪信号$E(x_{t^},t^)$作为视觉特征。UNet编码器ε的不同层级提供了从低级细节到高级语义的不同层次的特征表示。在骨干ε的每个层级上都连接了一个轻量级的可训练判别器头,用于判别真实/伪造。
作为我们流程的核心构建块,我们使用动态判别器池来提供这些判别器头。这个判别器池P是一个庞大的、不断演化的判别器头集合,这些判别器头可以连接到ε,构成我们流程中的多头判别器。这些头的轻量级设计使我们能够扩展池的规模,而不会带来显著的计算或内存开销。为了训练这个池,在每个训练迭代中,我们从池中采样一部分头D~P,用这部分头计算对抗性损失$L_{adv}$。我们通过$L_{adv}$的梯度反向传播来优化所采样的头D。更新后,我们将这些头放回池中,以动态地演化池的全局知识。通过随机采样实现的这种随机性确保了反馈的多样性,防止任何单个头主导生成器的学习,减少了偏差。这增加了反馈的多样性,并增强了GAN训练的稳定性[6,8]。
为了构建专用的判别器头,我们根据判别器时间步$t^$的噪声水平,将池P划分为$P_{t^} \in P \forall t^$。这有助于我们采样针对特定判别器时间步$t^$的特定噪声水平的专用判别器头$D_{t^} ~ P_{t^}$。与将时间步相关判别器视为增强或平滑技术的先前方法[23,47]不同,我们池中每个头都在其指定的噪声水平上充当专家,提供针对特定图像特征的精确、细致的评判。我们计算对抗性损失如下:
其中,冻结的UNet编码器ε为采样的判别器头$D_{t^*}$提取特征。每个可训练头H的中间输出被聚合起来,用于真实/伪造的判别预测。
3.3 判别器池刷新
GAN训练中的早期过拟合会限制判别器的反馈多样性,降低生成图像的质量和多样性[9,23,42]。为解决这个问题,我们为动态判别器池引入了一种随机重新初始化策略:在每个训练迭代中,我们丢弃(清空)一部分随机选择的判别器头(约1%),并替换(刷新)为重新初始化的判别器。刷新判别器子集有助于在保留的头提供的稳定反馈和重新初始化的头带来的可变性之间保持平衡,从而提高生成器的性能。
3.4 多尺度和双目标GAN训练
扩散模型对多种分辨率的泛化能力[38]使我们能够进一步使用预训练的UNet编码器进行全局和局部(补丁)判别。为此,我们将池分为局部头和全局头,通过对抗性反馈对它们进行训练——分别评判整个图像或细粒度细节。这种设置使全局头能够评估结构,局部头能够捕捉纹理,平衡了图像的宏观和微观细节。我们还引入了双目标GAN训练,同时应用条件和无条件对抗性损失。我们进行这种训练是基于先前的分析[23],该分析证实条件生成会引入“Janus”伪影,且难以使图像与文本特征对齐。Janus伪影表现为局部区域内的重复模式,例如人脸或手。为了减少在单步扩散中更易出现的此类伪影,我们使用局部判别器头进行条件和无条件判别。无条件局部头仅根据图像的连贯性提供反馈。这种双目标方法防止了对特定提示驱动特征的过拟合,减少了伪影出现的可能性,并提供了平衡的、泛化的对抗性信号。
总之,我们为每个时间步$t^*$划分权重池,在不同的训练设置下进一步划分:(i)具有条件判别的全局图像,(ii)具有条件判别的局部补丁,(iii)具有无条件判别的局部补丁。每个池都有相同数量的判别器头。
3.5 自底向上的多步细化
与先前的步骤减少算法不同,我们提供了质量与速度的权衡,用户可以使用相同的模型权重进行单步或多步(最多4步)去噪,以获得更高质量的生成图像。我们通过自底向上的细化方法来支持这一点,即先优化网络以实现单步,然后逐步细化以实现多步。这与更传统的自顶向下方法有很大不同,传统方法按8步、4步、2步、1步的顺序逐步细化。使用自底向上的细化方法,用户可以将同一模型用于多步,并获得从1步到4步逐步改善的结果。
算法1 动态对抗框架
1: 输入:教师模型Gψ、学生模型Gθ、池P、所有时间步t
2: 对于每个时间步t∈{所有t}:
3: 初始化Pglobal, uncond t , {Plocal, cond t, Plocal, uncond t }
4: 结束循环
5: 当未收敛时:
6: ϵ ∼N(0, I)
7: 采样时间步:t∼{所有t}
8: 教师输出:x0 ←Gψ(ϵ)
9: 学生输出:$\hat{x}_0$ ←Gθ(ϵ)
10: $x_{t^}$ ←√$\overline{\alpha}_{t^}$· x0 + √1 −$\overline{\alpha}_{t^}$· ϵ
11: $\hat{x}_{t^}$ ←√$\overline{\alpha}_{t^}$· $\hat{x}_0$ + √1 −$\overline{\alpha}_{t^}$· ϵ
12: 对于Pt中的每个部分Ptype t:
13: $D_{t^}$∼Ptype t
14: $L_{adv}^D$ = $D_{t^}$(E($\hat{x}_{t^}$, t)) −$D_{t^}$(E($x_{t^}$, t))
15: $L_{adv}^G$ = −$D_{t^}$(E($\hat{x}_{t^}$, t*))
16: 优化:Gθ −α·∇$L_{adv}^G$
17: 优化:Ptype optim −α·∇$L_{adv}^D$
18: 结束循环
19: P ←{P, Poptim}
20: Prefresh ∼N(0, I)
21: P ←{P, Prefresh}
22: 结束循环
23: 返回:训练好的学生模型Gθ
4. 实验
实现细节:每个判别器头由4×4卷积层(步长为2)、组归一化[48]和SiLU激活函数[16,36]组成。10个判别器头作用于来自预训练扩散模型冻结骨干网络的10个不同特征层级的特征图。我们采用特定的判别器时间步$t^*$∈{10,250,500,750}[23]。
我们使用包含480个判别器头的池,其中160个用于每种任务类型(全局条件/局部条件/局部无条件)。我们使用AdamW优化器[26]进行训练,批处理大小为5,在单个NVIDIA A100 GPU上进行20步梯度累积。每次迭代从池中采样判别器头进行真假分类,其中1%的判别器头会被重新初始化(在池刷新期间)以保持动态反馈。为了证明在不同教师模型上的泛化能力,我们训练了两个具有不同视觉目标的网络:NitroSD-Realism(以4步DMD2[52]为教师模型,针对真实感进行优化)和NitroSD-Vibrant(以8步Hyper-SDXL[37]为教师模型,针对鲜艳色彩进行优化)。
数据:基于[42]中的假设(合成图像比真实图像具有更好的文本对齐性),我们仅使用多步教师模型生成的合成样本训练模型,不使用配对的提示-图像数据。提示来自Pick-a-Pic[22]和LAION[44]数据集,总计100万个。
基线模型和评估指标:我们将我们的模型与DMD2[52]、Hyper-SDXL[37]、SDXL基础模型[34]以及其他时间步蒸馏方法(如SDXL-Turbo[42]和SDXL-Lightning[23])进行比较。DMD2[52]提出了使用KL散度的分布匹配蒸馏,以解决流引导蒸馏的局限性。Hyper-SDXL[37]使用人类反馈[50,55]来提高输出的视觉吸引力。SDXL-Turbo[42]和SDXL-Lightning[23]引入了对抗性损失和时间步相关判别器用于少步推理。
4.1 定性比较
图4展示了我们的模型(NitroSD-Realism和NitroSD-Vibrant)与最先进的单步推理扩散模型的定性比较。SDXL-Turbo[42]和SDXL-Lightning[23]模型在视觉保真度方面存在局限性。SDXL-Turbo偶尔会出现文本对齐问题(如第4行),而SDXL-Lightning在精细细节上往往缺乏锐度。相比之下,NitroSD-Realism和NitroSD-Vibrant与所有单步基准(包括教师模型DMD2[52]和Hyper-SDXL[37])相比,具有更高的清晰度、更丰富的纹理和更少的伪影。我们还注意到,我们的模型能够捕捉多步教师模型的视觉细节和纹理保真度,特别是Hyper-SDXL的8步模型和DMD2的4步模型。NitroSD-Realism与DMD2的照片真实感细节高度一致,即使在单步推理中也能重现细粒度的真实感。NitroSD-Vibrant捕捉了Hyper-SDXL鲜艳风格所特有的鲜艳、饱和色彩。这种在风格和质量上的高度一致性凸显了我们提出的对抗性框架在提取教师模型独特属性方面的有效性。最后,与SDXL[34]的25步结果相比,NitroSD实现了具有竞争力的细节和纹理保真度,有效地将SDXL的复杂过程压缩为一个精简的单步模型,同时不牺牲视觉质量。
4.2 用户研究
我们进行了一项基于二选一偏好的用户研究(如图5所示),参与者将NitroSD-Realism和NitroSD-Vibrant生成的图像与其他单步和多步方法生成的图像进行比较。我们的单步结果表明,NitroSD-Vibrant始终优于所有模型,包括25步的SDXL,表现出更出色的色彩鲜艳度和丰富度。NitroSD-Realism也表现出强大的性能,优于所有单步方法。我们还将我们的2步结果与相同竞争对手的4步输出进行了评估,发现我们的2步方法甚至优于4步基线。这表明NitroSD能够以更少的步骤实现更高的质量,并凸显了我们的框架在高保真生成方面的实际优势。
4.3 定量比较
我们在COCO-5K验证数据集[24]上进行了定量评估,使用表1中的几个关键指标:CLIP分数[35](ViT-B/32[11],通过测量生成图像与文本描述之间的相似性来评估提示对齐性)、Fréchet Inception距离(FID)[17](通过比较生成图像和真实图像的特征分布来评估图像质量和多样性)、美学分数[1](基于用户偏好训练,用于量化视觉吸引力)和ImageReward分数[50](反映潜在的用户偏好)。
虽然我们的模型在FID和CLIP分数上具有竞争力,但NitroSD在高级指标(美学分数和ImageReward)上尤其出色。NitroSD-Realism在美学分数和ImageReward上均优于其教师模型DMD2[52],这两个指标基于用户偏好捕捉图像吸引力和文本对齐性。NitroSD-Vibrant在这两个指标上也取得了最高分数之一,反映出其生成符合用户偏好的视觉吸引力图像的能力。这些高级指标凸显了NitroSD在主观质量方面的优势,这是文本到图像生成中的一个关键因素。结合我们的用户研究结果,这些结果证实NitroSD有效地平衡了快速推理和高用户满意度,为需要同时兼顾效率和美学吸引力的应用提供了切实可行的解决方案。
4.4 多步样本比较
我们对多步样本进行了比较,如图6所示。值得注意的是,像SDXL-Lightning[23]和DMD2[52]这样的模型缺乏用于单步和多步推理的统一模型,导致布局不一致,限制了用户优化单步输出的能力。Hyper-SDXL为了实现统一模型而牺牲了单步性能。除我们的方法外,所有方法[23,37,42,52]在复杂场景上都表现出明显的伪影,特别是在具有复杂纹理的区域,如茂密的植被或图6中宇航员的宇航服。当推理步骤扩展到4步时,SDXL-Turbo表现出显著的质量下降,显示出其在更多推理步骤下的局限性。相比之下,我们的模型NitroSD-Realism和NitroSD-Vibrant表现出高度的图像清晰度,并且从1步到4步推理的保真度稳步提高。
4.5 消融研究
为了评估我们的动态对抗性框架中每个组件的影响,我们通过移除特定元素进行了消融研究,如图7所示。我们注意到:(i)缺少多尺度双目标GAN训练会减少细粒度细节,并引入明显的“三眼”Janus伪影,凸显了平衡反馈的重要性;(ii)没有池刷新时,伪影仍然存在,锐度降低,导致图像质量下降,这表明判别器存在过拟合和适应性不足的问题;(iii)移除动态判别器池会进一步降低锐度,表明庞大的判别器池在我们的框架中起着关键作用。
4.6 扩展到不同的教师模型
尽管NitroFusion是作为完整模型而非LoRA[2,20]进行训练的,但它可以通过权重调整适应其他SDXL[34]检查点。这是通过将NitroFusion和SDXL[34]之间的权重差异应用于新的自定义模型来实现的。图8展示了将NitroSD-Realism适应于来自CivitAI[4]社区的具有动漫[3]和油画[5]风格的自定义SDXL模型的结果。无需额外训练,NitroCustom-ZS(零样本)通过权重调整保留了每种风格的独特特征。NitroFusion在训练时不依赖自然图像数据,这进一步使其能够轻松适应新的风格(图8的最后一列)。
5. 结论
在本文中,我们提出了一种用于单步扩散蒸馏的动态对抗框架,该框架使用大量专业判别器头池,从多个方面评判生成质量——就像一组艺术评论家一样。我们为该池引入了周期性刷新策略,即重新初始化池的一部分,以防止判别器过拟合和对抗崩溃。最后,我们通过多尺度双目标策略训练整个模型,关注不同尺度(局部与全局)的图像细节,并平衡提示对齐与图像连贯性。
通过定性和定量分析,我们证明了我们的模型显著优于现有的少步和单步基线模型。我们进行了广泛的用户研究,结果表明,大多数用户更喜欢我们的单步和两步模型,甚至在与25步高分辨率扩散流程的比较中也是如此。
NitroFusion:通过动态对抗训练实现高保真单步扩散(补充材料)
图9. 我们的NitroSD-Realism和-Vibrant模型的1到4步优化过程,展示了图像质量和细节在不同步骤中的逐步提升
A. 额外的实现细节
时间步偏移:借鉴先前的研究[7]以及我们的基础模型DMD2[52]和Hyper-SD[37],我们采用了时间步偏移技术,将原始的T=1000偏移至500和250。NitroSD-Realism和-Vibrant分别在{250, 188, 125, 63}和{500, 375, 250, 125}的时间步上进行多步生成训练。两个模型的训练都耗费了约20个NVIDIA A100天。
用户研究细节:我们使用来自PartiPrompts[54]的LADD[43]子集的128个提示来评估用户偏好,收集了170名参与者的2884张选票。
B. 额外的消融研究
4.5节中的消融研究采用8步的HyperSDXL[37]作为教师模型,训练时长为30小时。表2呈现了定量结果。
表2. 消融研究的定量结果
模型 | CLIP(↑) | Patch Teacher FID(↓) | 美学分数(↑) | Image Reward(↑) |
---|---|---|---|---|
完整模型 | 0.315 | 18.70 | 5.87 | 1.020 |
无多尺度双目标GAN | 0.316 | 18.99 | 5.83 | 1.035 |
无池刷新 | 0.316 | 18.78 | 5.98 | 1.054 |
无动态池 | 0.316 | 19.46 | 5.98 | 1.010 |
特别是,我们引入了Patch Teacher FID指标,该指标测量学生样本和教师样本的299×299中心裁剪补丁之间的FID分数[23],用于评估高分辨率细节的保留程度。该指标是评估GAN训练有效性的关键指标,因为它强调了生成器表示细粒度特征和保持与教师模型保真度的能力。表2显示,移除每个组件都会导致Patch Teacher FID出现不同程度的下降,凸显了每个组件对我们动态对抗框架整体性能的独特贡献。
C. 讨论与局限性
无分类器引导(CFG):与大多数少步蒸馏方法[28,37]一样,我们的框架不支持CFG[10,18]。虽然我们在单步生成中取得了有竞争力的结果,但整合CFG可以增强与提示的对齐,特别是对于复杂或模糊的文本。未来的工作可以专注于将CFG整合到对抗框架中以增强可控性。
使用自然图像训练:使用自然图像训练有望通过利用超出教师生成样本的多样化、高分辨率数据来提高质量。然而,对齐不佳的图像-提示对存在导致文本-图像错位的重大风险,降低对抗训练的有效性。未来的研究将探索使用自然图像训练同时解决图像-提示错位的策略。
训练效率:我们的框架凸显了对抗训练在单步扩散蒸馏中的潜力,这一领域仍未得到充分探索。未来的方向包括优化对抗策略,例如更高效的自适应学习调度,以进一步提高训练效率。
D. 额外的定性结果
我们在本节中提供额外的定性结果。图9展示了NitroSD的1到4步优化过程,图10呈现了与基线方法[23,34,37,42,52]的进一步比较。此外,图11和图12分别包含了更多由NitroSD-Realism和NitroSD-Vibrant生成的单步样本。
文章总结
- 本文类比了艺术评论家如何评价一幅画,从而提出了多个判别器组池的概念,即:每位评论家专注于构图、色彩、技巧和细节等不同方面。本文没有依赖可能迅速变得过度自信的单一判别器[8, 12, 30, 31],而是维持了一个庞大的、动态的专业判别器组池,这些判别器组在冻结的UNet骨干网络[38]之上运行。正如多样化的评论家小组能提供比单一评委更全面的反馈,我们的判别器集合通过在不同噪声水平[23]和空间尺度上提供专业反馈,引导生成器产出高质量结果。