0%

全文翻译

摘要

扩散模型作为一类新型生成模型近年来备受关注。尽管取得了成功,但这类模型存在一个显著缺陷——采样速度缓慢,需要进行数百甚至数千次函数评估(NFE)。为此,研究人员探索了无学习(learning-free)和有学习(learning-based)两类采样策略来加速采样过程。无学习采样基于扩散常微分方程(ODE)的公式表述,采用各种常微分方程求解器。然而,该方法在准确追踪真实采样轨迹方面面临挑战,尤其是在函数评估次数较少的情况下。相反,基于知识蒸馏等有学习采样方法需要大量额外训练,限制了其实用性。为克服这些局限性,我们提出了蒸馏型常微分方程求解器(D-ODE求解器),这是一种基于常微分方程求解器公式表述的简洁蒸馏方法。该方法无缝融合了无学习采样和有学习采样的优势。

D-ODE求解器通过对现有常微分方程求解器进行单一参数调整构建而成。此外,我们利用知识蒸馏技术,从大步数常微分方程求解器中提取知识,优化小步数D-ODE求解器,并在一批样本上完成这一过程。综合实验表明,与现有常微分方程求解器(包括DDIM、PNDM、DPM-Solver、DEIS和EDM)相比,D-ODE求解器性能更优,尤其在函数评估次数较少的场景中表现突出。值得注意的是,与以往蒸馏技术相比,我们的方法计算开销可忽略不计,便于与现有采样器快速集成。定性分析表明,D-ODE求解器不仅能提升图像质量,还能忠实遵循目标常微分方程轨迹。

阅读全文 »

全文翻译

摘要

扩散模型(DMs)已实现了最先进的生成性能,但由于其序列去噪特性,存在较高的采样延迟问题。现有的基于求解器的加速方法在低延迟预算下往往会面临图像质量下降的问题。在本文中,我们提出了集成并行方向求解器(简称EPD-Solver),这是一种新型常微分方程(ODE)求解器,通过在每个ODE步骤中融入多个并行梯度评估来减轻截断误差。重要的是,由于额外的梯度计算是相互独立的,它们可以完全并行化,从而保持低延迟采样。我们的方法以蒸馏的方式优化一小组可学习参数,确保训练开销最小化。此外,我们的方法还可作为插件来改进现有的ODE采样器。在各种图像合成基准测试上的大量实验表明,我们的EPD-Solver在实现高质量、低延迟采样方面是有效的。例如,在5次函数评估(NFE)的相同延迟水平下,EPD在CIFAR-10数据集上的FID值为4.47,在FFHQ数据集上为7.97,在ImageNet数据集上为8.17,在LSUN Bedroom数据集上为8.26,大幅超越了现有的基于学习的求解器。相关代码可在https://github.com/BeierZhu/EPD获取。

阅读全文 »

全文翻译

摘要

扩散模型凭借其卓越的生成能力,近期在图像合成领域获得了前所未有的关注。尽管性能强大,但这些模型通常会产生高昂的计算成本,这主要归因于其序列性去噪过程和庞大的模型规模。传统的扩散模型压缩方法通常需要大量的再训练,存在成本和可行性方面的挑战。在本文中,我们提出了DeepCache,这是一种全新的无需训练的范式,它从模型架构的角度加速扩散模型。DeepCache利用了扩散模型序列性去噪步骤中固有的时间冗余性,通过在相邻去噪阶段缓存和检索特征,从而减少冗余计算。借助U-Net的特性,我们在以极低成本更新低层级特征的同时,重用高层级特征。这种创新策略使得Stable Diffusion v1.5的速度提升了2.3倍,而CLIP分数仅下降0.05;LDM-4-G在ImageNet上的速度提升了4.1倍,FID仅轻微下降0.22。我们的实验还表明,DeepCache优于现有的需要再训练的剪枝和蒸馏方法,并且与当前的采样技术兼容。此外,我们发现,在相同的吞吐量下,DeepCache与DDIM或PLMS结合时,能够取得相当甚至略有提升的结果。代码可在https://github.com/horseee/DeepCache获取。

阅读全文 »

Here's something encrypted, password is required to continue reading.
阅读全文 »

全文翻译

摘要

扩散模型已展现出卓越的生成质量,但其代价是需要大量的函数评估。最近,基于常微分方程(ODE)的高级求解器被开发出来,旨在减轻有限采样步骤下反向扩散求解的巨大计算需求。然而,这些求解器深受亚当斯(Adams)类多步法的启发,仅依赖于与时间$t$相关的拉格朗日插值。我们发现,与时间$t$相关的拉格朗日插值对于扩散模型而言并非最优,并揭示了一个由时间步长和求解器系数构成的紧凑搜索空间。基于这一分析,我们提出了一种新颖的可微求解器搜索算法,以识别更优的求解器。配备所搜索到的求解器后,整流流(rectified-flow)模型(如SiT-XL/2和FlowDCN-XL/2)在ImageNet-256×256数据集上仅用10步就能分别达到2.40和2.35的FID分数。同时,DDPM模型DiT-XL/2在仅10步的情况下达到了2.33的FID分数。值得注意的是,我们搜索到的求解器显著优于传统求解器(甚至一些蒸馏方法)。此外,该求解器在各种模型架构、分辨率和模型大小上都表现出良好的通用性。

阅读全文 »

全文翻译

摘要

扩散模型和流匹配模型在文本到图像生成任务中取得了显著成功。然而,这些模型通常依赖于为所有提示词预先设定的去噪调度方案。多步反向扩散过程可以看作是一种逐步生成高质量图像的“思维链”。因此,扩散模型应该为每个实例进行推理,自适应地确定最优噪声调度方案,以实现高效采样的同时保证高生成质量。在本文中,我们为此引入了时间预测扩散模型(TPDM)。

TPDM采用了一个即插即用的时间预测模块(TPM),该模块在每个去噪步骤中根据当前的潜在特征预测下一个噪声水平。我们使用强化学习来训练TPM,以最大化一个奖励值,该奖励值鼓励生成高质量的最终图像,同时惩罚过多的去噪步骤。通过这种自适应调度器,TPDM不仅能生成与人类偏好高度一致的高质量图像,还能动态调整扩散时间和去噪步骤数量,从而同时提升性能和效率。

基于Stable Diffusion 3 Medium架构,TPDM的美学评分达到5.44,人类偏好评分(HPS)达到29.59,同时使用约50%的去噪步骤就能实现更优的性能。

阅读全文 »