Lzq's blog

2025-CVPR-Adaptive Non-Uniform Timestep Sampling for Diffusion Model Training全文翻译

发表于 2025-06-26 分类于 AI

全文翻译

摘要

作为一种具有高表达能力的生成模型，扩散模型已在包括图像生成、自然语言处理和组合优化等多个领域展现出卓越的成功。然而，随着数据分布变得愈发复杂，将这些模型训练至收敛所需的计算资源也日益增加。尽管扩散模型通常采用均匀时间步长采样进行训练，但我们的研究表明，随机梯度的方差在不同时间步长间存在显著差异，高方差的时间步长成为阻碍更快收敛的瓶颈。为解决这一问题，我们引入了一种非均匀时间步长采样方法，该方法优先处理这些更为关键的时间步长。我们的方法通过跟踪每个时间步长的梯度更新对目标函数的影响，自适应地选择最有可能有效最小化目标函数的时间步长。实验结果表明，这种方法不仅加速了训练过程，还在收敛时提升了性能。此外，我们的方法在各种数据集、调度策略和扩散架构上均表现出稳健的性能，优于此前提出的缺乏这种稳健性的时间步长采样和加权启发式方法。

阅读全文 »

2025-CVPR-Accelerating Diffusion Transformer via Increment-Calibrated Caching with Channel-Aware Singular Value Decomposition论文精读

发表于 2025-06-26 分类于 AI

全文翻译

摘要

扩散Transformer（DiT）模型凭借其卓越的生成能力和可扩展性，在图像生成领域取得了显著成功。然而，扩散模型（DMs）的迭代特性导致计算复杂度较高，给模型部署带来了挑战。尽管现有的基于缓存的加速方法试图利用时间上的固有相似性来跳过DiT的冗余计算，但缺乏校正可能会导致潜在的质量下降。在本文中，我们提出了增量校准缓存（increment-calibrated caching）方法，这是一种用于DiT加速的无训练方法，其校准参数通过预训练模型自身的低秩近似生成。为解决异常激活可能导致的校正失败问题，我们引入了通道感知奇异值分解（channel-aware Singular Value Decomposition, SVD），进一步增强了校准效果。实验结果表明，在计算资源预算相近的情况下，我们的方法始终比现有的朴素缓存方法表现更优。与35步DDIM相比，我们的方法可减少超过45%的计算量，将Inception Score（IS）提高12，同时FID的增加量小于0.06。代码可在https://github.com/ccccczzy/icc获取。

阅读全文 »

2025-CVPR-A Closer Look at Time Steps is Worthy of Triple Speed-Up for Diffusion Model Training论文精读

发表于 2025-06-26 分类于 AI

全文翻译

摘要

训练扩散模型一直是计算密集型任务。在本文中，我们介绍了一种新的扩散模型训练加速方法SpeeD，该方法基于对时间步长的深入研究。我们的关键发现是：i）根据过程增量，时间步长在经验上可分为加速区、减速区和收敛区。ii）这些时间步长是不平衡的，许多集中在收敛区。iii）集中的步骤对扩散训练的益处有限。为了解决这个问题，我们设计了一种非对称采样策略，该策略减少了来自收敛区的步骤的频率，同时增加了来自其他区域的步骤的采样概率。此外，我们提出了一种加权策略，以强调过程增量快速变化的时间步长的重要性。作为一种即插即用且与架构无关的方法，SpeeD在各种扩散架构、数据集和任务中始终实现3倍加速。值得注意的是，由于其简单的设计，我们的方法在最小化开销的情况下显著降低了扩散模型训练的成本。我们的研究使更多研究人员能够以更低的成本训练扩散模型。

阅读全文 »

2024-CVPR-One-step Diffusion with Distribution Matching Distillation论文精读

发表于 2025-06-14 分类于 AI

全文翻译

摘要

扩散模型能够生成高质量图像，但需要进行数十次前向传播。我们引入了分布匹配蒸馏（DMD）方法，该方法可将扩散模型转换为单步图像生成器，且对图像质量的影响微乎其微。我们通过最小化近似KL散度来强制单步图像生成器在分布层面与扩散模型匹配，其梯度可表示为两个分数函数的差值，一个是目标分布的分数函数，另一个是我们单步生成器所产生的合成分布的分数函数。这些分数函数被参数化为两个分别在各自分布上训练的扩散模型。结合匹配多步扩散输出大规模结构的简单回归损失，我们的方法优于所有已发表的少步扩散方法，在ImageNet 64×64上达到2.62的FID，在零样本COCO-30k上达到11.49的FID，可与Stable Diffusion相媲美，但速度要快几个数量级。利用FP16推理，我们的模型在现代硬件上能够以20 FPS的速度生成图像。

阅读全文 »

2025-ICML-Diffusion Sampling Correction via Approximately 10 Parameters论文精读

发表于 2025-06-06 更新于 2025-06-10 分类于 AI

全文翻译

摘要

扩散概率模型（DPM）在生成任务中表现出了卓越的性能，但这是以采样效率为代价的。为了在不牺牲质量的前提下提高采样速度，最近提出了各种基于蒸馏的加速采样算法。然而，它们通常需要大量额外的训练成本和模型参数存储，这限制了它们的实际应用。在这项工作中，我们提出了基于主成分分析的自适应搜索（PAS），它用最少的可学习参数和训练成本优化了现有的DPM求解器。具体来说，我们首先使用主成分分析获得几个正交单位基向量来跨越高维采样空间，这使我们能够仅学习一组坐标来校正采样方向；此外，基于累积截断误差呈现“S”形的观察，我们设计了一种自适应搜索策略，进一步提高了采样效率，并将存储的参数数量减少到约10个。大量实验表明，PAS可以以即插即用的方式显著增强现有的快速求解器，且成本可忽略不计。例如，在CIFAR10上，PAS仅需要12个参数，在单个NVIDIA A100 GPU上训练不到1分钟，就可以将DDIM从15.69的FID（NFE=10）优化到4.37。

阅读全文 »

2024-NeurIPS-Faster Diffusion-Rethinking the Role of the Encoder论文精读

发表于 2025-06-03 更新于 2025-06-06 分类于 AI

全文翻译

摘要

扩散模型的主要缺点之一是图像生成的推理时间较慢。在解决这个问题的最成功方法中，蒸馏方法表现突出。然而，这些方法需要大量的计算资源。在本文中，我们采用了另一种加速扩散模型的方法。我们对UNet编码器进行了全面研究，并对编码器特征进行了实证分析，从而深入了解了它们在推理过程中的变化。特别地，我们发现编码器特征变化极小，而解码器特征在不同时间步长间表现出显著差异。这一发现促使我们在某些相邻时间步长省略编码器计算，并将先前时间步长的编码器特征重复用作多个时间步长解码器的输入。重要的是，这使我们能够并行执行解码器计算，进一步加速去噪过程。此外，我们引入了一种先验噪声注入方法，以改善生成图像的纹理细节。除了标准的文本到图像任务外，我们还在其他任务上验证了我们的方法：文本到视频、个性化生成和参考引导生成。在不使用任何知识蒸馏技术的情况下，我们的方法分别将Stable Diffusion（SD）和DeepFloyd - IF模型的采样速度提高了41%和24%，将DiT模型的采样速度提高了34%，同时保持了高质量的生成性能。

阅读全文 »

2024-ICML-The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling论文精读

发表于 2025-06-03 更新于 2025-07-31 分类于 AI

全文翻译

摘要

随着UNet架构的引入，扩散概率模型已成为图像生成任务中的主导力量。UNet的一个关键设计是编码器块和解码器块之间的跳跃连接。尽管跳跃连接已被证明可以提高训练稳定性和模型性能，但我们发现这种捷径可能成为变换复杂性的限制因素。随着采样步骤的减少，生成过程和UNet的作用更接近从高斯分布到目标分布的前推变换，这对网络的复杂性构成了挑战。为了解决这一挑战，我们提出了Skip-Tuning，这是一种简单但效果惊人的无训练调优方法，适用于跳跃连接。我们的方法仅使用19次函数评估（NFE），就可以使ImageNet 64上的预训练EDM的FID提高100%（达到1.75），打破了无论采样步骤如何的ODE采样器的限制。令人惊讶的是，当我们增加采样步骤时，这种改进仍然存在，甚至仅用39次NFE就能超过EDM-2的最佳结果（1.58 vs 1.57）。我们进行了全面的探索性实验，以揭示这种惊人效果的原因。我们观察到，虽然Skip-Tuning增加了像素空间的分数匹配损失，但特征空间的损失却减少了，尤其是在中间噪声水平下，这与图像质量改善的最有效范围一致。

阅读全文 »

2024-ICLR-Consistency Trajectory Models Learning Probability Flow ODE Trajectory of Diffusion论文精读

发表于 2025-06-03 更新于 2025-06-08 分类于 AI

全文翻译

摘要

一致性模型（CM）（Song 等人，2023）以样本质量为代价加速了基于分数的扩散模型采样，但缺乏一种自然的方式来权衡质量和速度。为解决这一限制，我们提出了一致性轨迹模型（CTM），这是一个将 CM 和基于分数的模型作为特例包含在内的通用框架。CTM 训练单个神经网络，该网络可以在单次前向传播中输出分数（即对数密度的梯度），并支持在扩散过程的概率流常微分方程（PF ODE）中任意初始时间和结束时间之间进行无限制的遍历。CTM 能够高效结合对抗训练和去噪分数匹配损失以提升性能，在 CIFAR - 10（FID 1.73）和 64×64 分辨率的 ImageNet 上，实现了单步扩散模型采样的最新最先进 FID 结果。CTM 还支持一系列新的采样方案，包括确定性和随机性方案，这些方案涉及沿 ODE 解轨迹的长跳跃。随着计算预算的增加，CTM 持续改善样本质量，避免了 CM 中出现的质量退化问题。此外，与 CM 不同，CTM 对分数函数的访问可以简化扩散社区中已建立的可控/条件生成方法的采用，这种访问还支持似然计算。代码可在 https://github.com/sony/ctm 获得。

阅读全文 »

2024-CVPR-FreeU Free Lunch in Diffusion U-Net论文精读

发表于 2025-05-31 分类于 AI

全文翻译

摘要

在本文中，我们揭示了扩散U-Net中未被充分利用的潜力，它可作为一种“免费午餐”，在不增加计算成本的情况下显著提升生成质量。我们首先研究了U-Net架构在去噪过程中的关键贡献，发现其主骨干主要负责去噪，而跳跃连接主要将高频特征引入解码器模块，导致网络忽略了骨干的语义信息。基于这一发现，我们提出了一种简单而有效的方法——称为“FreeU”，它无需额外的训练或微调即可提高生成质量。我们的核心见解是策略性地重新加权来自U-Net跳跃连接和骨干特征图的贡献，以利用U-Net架构两个组件的优势。在图像和视频生成任务上的实验结果表明，我们的FreeU可以轻松集成到现有的扩散模型中，例如Stable Diffusion、DreamBooth、ModelScope、Rerender和ReVersion，只需几行代码即可提高生成质量。你所需要做的就是在推理过程中调整两个缩放因子。项目页面：https://chenyangsi.top/FreeU/

阅读全文 »

2024-NeurIPS-Simple and Fast Distillation of Diffusion Models论文精读

发表于 2025-05-30 更新于 2025-07-26 分类于 AI

全文翻译

摘要

基于扩散的生成模型在各种任务中展现出了强大的性能，但其代价是采样速度缓慢。为了实现高效且高质量的合成，最近开发了各种基于蒸馏的加速采样方法。然而，这些方法通常需要通过精心设计进行耗时的微调，才能在特定的函数评估次数（NFE）下取得令人满意的性能，这使得它们在实际应用中难以使用。为了解决这个问题，我们提出了扩散模型的简单快速蒸馏（SFD）方法，它简化了现有方法中使用的范式，并将微调时间大幅缩短了1000倍。我们从一种基于普通蒸馏的采样方法开始，通过识别和解决几个影响合成效率和质量的微小但关键的因素，将其性能提升到了最先进的水平。我们的方法还可以使用单个蒸馏模型实现可变NFE的采样。大量实验表明，SFD在少步图像生成任务中，在样本质量和微调成本之间取得了良好的平衡。例如，SFD在CIFAR-10上仅用单个NVIDIA A100 GPU进行0.64小时的微调，就实现了4.53的FID（NFE=2）。我们的代码可在https://github.com/zju-pi/diff-sampler获取。

阅读全文 »