Lzq's blog

Consistency Models论文精读

发表于 2025-03-28 更新于 2025-05-23 分类于 AI

全文翻译

摘要

扩散模型在图像、音频和视频生成领域取得了显著进展，但它们依赖于迭代采样过程，导致生成速度较慢。为了克服这一限制，我们提出了一致性模型（Consistency Models），这是一类新的模型，通过直接将噪声映射到数据来生成高质量样本。一致性模型在设计上支持快速单步生成，同时也允许多步采样，以便在计算量和样本质量之间进行权衡。它们还支持零样本数据编辑，如图像修复、上色和超分辨率，而无需在这些任务上进行明确的训练。一致性模型既可以通过提炼预训练的扩散模型进行训练，也可以作为独立的生成模型进行训练。通过大量实验，我们证明了在单步和少步采样中，一致性模型优于现有的扩散模型提炼技术，在CIFAR-10数据集上实现了3.55的最先进FID（Frechet Inception Distance），在64×64分辨率的ImageNet数据集上实现了6.20的最先进FID。在独立训练时，一致性模型成为一类新的生成模型，在CIFAR-10、64×64分辨率的ImageNet和256×256分辨率的LSUN等标准基准测试中，其性能优于现有的单步、非对抗性生成模型。

阅读全文 »

Prompt-to-Prompt Image Editing with Cross Attention Control论文精读

发表于 2025-03-28 更新于 2025-05-08 分类于 AI

全文翻译

摘要

最近，大规模文本驱动的合成模型因其能够生成高度多样化且符合给定文本提示的图像的卓越能力而备受关注。这种基于文本的合成方法对习惯用语言描述意图的人们来说特别有吸引力。因此，将文本驱动的图像合成扩展到文本驱动的图像编辑是很自然的想法。对于这些生成模型而言，编辑是一项具有挑战性的任务，因为编辑技术的一个固有属性是保留原始图像的大部分内容，而在基于文本的模型中，即使对文本提示进行微小修改，往往也会导致完全不同的结果。最先进的方法通过要求用户提供空间掩码来定位编辑区域，从而缓解了这一问题，但这忽略了掩码区域内的原始结构和内容。在本文中，我们探索了一种直观的 “提示到提示”（Prompt-to-Prompt）编辑框架，其中编辑操作仅由文本控制。为此， 我们深入分析了文本条件模型，并观察到交叉注意力层是控制图像空间布局与提示中每个单词之间关系的关键。基于这一观察，我们提出了几种仅通过编辑文本提示来监控图像合成的应用。这包括通过替换单词进行局部编辑、通过添加说明进行全局编辑，甚至可以精细地控制某个单词在图像中体现的程度。我们展示了在各种图像和提示上的结果，证明了合成的高质量以及对编辑后提示的高度保真。

阅读全文 »

FAST SAMPLING OF DIFFUSION MODELS WITH EXPONENTIAL INTEGRATOR论文精读

发表于 2025-03-25 更新于 2025-05-07 分类于 AI

全文翻译

摘要

在过去几年里，扩散模型（DMs）在生成式建模任务中取得了巨大成功，能够生成高保真样本。然而，DM的一个主要局限性是其采样过程极为缓慢，通常需要对学习到的扩散过程进行数百到数千次时间离散化步骤才能达到所需的精度。我们的目标是为DM开发一种快速采样方法，在减少步骤的同时保持高样本质量。为此，我们系统地分析了DM中的采样过程，确定了影响样本质量的关键因素，其中离散化方法最为关键。通过仔细研究学习到的扩散过程，我们提出了扩散指数积分采样器（DEIS）。它基于为离散化常微分方程（ODE）设计的指数积分器，并利用学习到的扩散过程的半线性结构来减少离散化误差。所提出的方法可以应用于任何DM，并且能够在仅10步内生成高保真样本。此外，通过直接使用预训练的DM，在得分函数评估次数（NFE）有限的情况下，我们实现了最先进的采样性能，例如在CIFAR10数据集上，10次NFE时的FID为4.17，20次NFE时的FID为2.86。项目页面和代码：https://qsh-zh.github.io/deis 。

阅读全文 »

DPM-Solver-Plus-Plus-Fast Solver for Guided Sampling of Diffusion Probabilistic Models论文精读

发表于 2025-03-25 更新于 2025-04-30 分类于 AI

全文翻译

摘要

扩散概率模型（DPMs）在高分辨率图像合成中取得了显著成功，尤其是在近期大规模文本到图像生成应用中。一种提高DPMs样本质量的关键技术是引导采样，通常需要较大的引导尺度才能获得最佳样本质量。常用的引导采样快速采样器是DDIM，它是一种一阶扩散常微分方程（ODE）求解器，通常需要100到250步才能生成高质量样本。尽管近期有研究提出了专用的高阶求解器，并在无引导采样方面实现了进一步加速，但它们在引导采样中的有效性此前尚未得到充分测试。在这项工作中，我们证明了以前的高阶快速采样器存在不稳定性问题，并且当引导尺度增大时，它们甚至比DDIM更慢。为了进一步加速引导采样，我们提出了DPM-Solver++，这是一种用于DPMs引导采样的高阶求解器。DPM-Solver++使用数据预测模型求解扩散ODE，并采用阈值化方法使解与训练数据分布相匹配。我们进一步提出了DPM-Solver++的多步变体，通过减小有效步长来解决不稳定性问题。实验表明，DPM-Solver++仅需15到20步就能为像素空间和潜空间DPMs的引导采样生成高质量样本。

阅读全文 »

Scalable Diffusion Models with Transformers论文精读

发表于 2025-03-24 更新于 2025-07-28 分类于 AI

全文翻译

摘要

我们探索了一类基于Transformer架构的新型扩散模型。我们训练图像的潜在扩散模型，用在潜在图像块上操作的Transformer替换常用的U-Net骨干网络。我们通过以每秒千兆次浮点运算（Gflops）衡量的前向传递复杂度，分析了我们的扩散Transformer（DiT）的可扩展性。我们发现，具有更高Gflops的DiT模型——通过增加Transformer的深度、宽度或增加输入令牌的数量——始终具有更低的FID（弗雷歇初始距离，Frechet Inception Distance）。除了具有良好的可扩展性，我们最大的DiT-XL/2模型在类条件ImageNet 512×512和256×256基准测试中优于所有先前的扩散模型，在后者上实现了2.27的最先进FID分数。

阅读全文 »

PSEUDO NUMERICAL METHODS FOR DIFFUSION MODELS ON MANIFOLDS论文精读

发表于 2025-03-21 更新于 2025-04-30 分类于 AI

全文翻译

摘要

去噪扩散概率模型（DDPMs）能够生成高质量的样本，如图像和音频样本。然而，DDPMs需要数百到数千次迭代才能生成最终样本。此前有多项研究通过调整方差调度（如改进的去噪扩散概率模型）或去噪方程（如去噪扩散隐式模型（DDIMs））成功加速了DDPMs。但是，这些加速方法无法保持样本质量，甚至在高加速比下会引入新的噪声，这限制了它们的实用性。为了在保持样本质量的同时加速推理过程，我们提出了一种全新的观点，即应将DDPMs视为在流形上求解微分方程。基于这一观点，我们提出了适用于扩散模型的伪数值方法（PNDMs）。具体而言，我们明确了如何在流形上求解微分方程，并证明了DDIMs是伪数值方法的简单情形。我们将几种经典的数值方法转换为相应的伪数值方法，发现伪线性多步法在大多数情况下表现最佳。根据实验结果，直接使用在Cifar10、CelebA和LSUN上预训练的模型时，PNDMs仅需50步就能生成比1000步DDIMs质量更高的合成图像（加速20倍），显著优于250步的DDIMs（在FID指标上提高约0.4），并且在不同的方差调度下具有良好的泛化性。

阅读全文 »

Elucidating the Design Space of Diffusion-Based Generative Models论文精读

发表于 2025-03-18 更新于 2025-04-24 分类于 AI

全文翻译

摘要

我们认为，当前基于扩散的生成模型在理论和实践上过于复杂，因此试图通过提出一个设计空间来改善这种情况。该设计空间能清晰区分具体的设计选择，有助于我们确定在采样、训练过程以及分数网络预处理方面的若干改进方向。综合这些改进，在类别条件设定下，我们的模型在CIFAR-10数据集上实现了1.79的新最先进FID（弗雷歇距离），在无条件设定下为1.97，且采样速度比先前设计快得多（每生成一张图像仅需进行35次网络评估）。为进一步展示其模块化特性，我们表明，我们的设计改进能显著提升先前工作中预训练分数网络的效率和生成质量。例如，将之前训练的64×64分辨率ImageNet模型的FID从2.07提升至接近最先进的1.55，经过我们提出的改进方法重新训练后，FID达到了新的最先进水平1.36。

阅读全文 »

读书笔记

发表于 2025-03-16

原子习惯

厚黑学

diffusion论文阅读感悟

发表于 2025-03-14 更新于 2025-04-22 分类于 AI

(NSCN Noise Conditional Score Networks) Generative Modeling by Estimating Gradients of the Data Distribution

发表于2019-NeurIPS
核心公式与推导：
创新点：
不足之处：
因为设计了加噪的马尔可夫过程，导致采样效率低。
提出了一种马尔可夫的加噪与去噪过程，diffusion的经典之作

阅读全文 »

DPM-Solver-A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps论文精读

发表于 2025-03-12 更新于 2025-05-10 分类于 AI

全文翻译

摘要

扩散概率模型（DPMs）是新兴的强大生成模型。尽管DPMs具有高质量的生成性能，但它们的采样速度仍然较慢，因为通常需要对大型神经网络进行数百或数千次的顺序函数评估（步骤）才能生成一个样本。从DPMs中采样可以看作是求解相应的扩散常微分方程（ODEs）。在这项工作中，我们提出了扩散ODEs解的精确公式。该公式通过解析计算解的线性部分，而不是像以往工作那样将所有项都留给黑箱ODE求解器处理。通过变量变换，解可以等效简化为神经网络的指数加权积分。基于我们的公式，我们提出了DPM-Solver，这是一种快速的、具有收敛阶保证的专用高阶扩散ODE求解器。DPM-Solver适用于离散时间和连续时间的DPMs，且无需任何额外训练。实验结果表明，DPM-Solver在各种数据集上仅需10 - 20次函数评估就能生成高质量样本。在CIFAR10数据集上，我们在10次函数评估中达到了4.70的FID（Frechet Inception Distance），在20次函数评估中达到了2.87的FID，并且与之前最先进的无训练采样器相比，在各种数据集上实现了4 - 16倍的加速。

阅读全文 »