0%

2025规划大纲

2月

初步接触扩散模型,查看领域必读的论文,主要了解DDPMDDIMNCSNScore-Based Diffusion Model以及Class-GuidanceClass-free Guidance等基础扩散模型知识。

阅读全文 »

全文翻译

摘要

我们提出了整流流(rectified flow),这是一种出奇简单的方法,用于学习(神经)常微分方程(ODE)模型,以在两个经验观测分布$\pi_0$和$\pi_1$之间进行传输,从而为生成式建模、域转移以及涉及分布传输的各种其他任务提供了统一的解决方案。整流流的核心思想是,学习常微分方程,使其尽可能地沿着连接从$\pi_0$和$\pi_1$中抽取的点的直线路径进行传输。这一目标通过求解一个简单的非线性最小二乘优化问题得以实现,该问题可以轻松扩展到大型模型,且无需在标准监督学习之外引入额外参数。直线路径之所以特殊且更受青睐,是因为它们是两点之间的最短路径,并且可以在无需时间离散化的情况下进行精确模拟,从而产生计算效率高的模型。我们证明,从数据中学习整流流的过程(称为整流),能够将$\pi_0$和$\pi_1$的任意耦合转化为一种新的确定性耦合,且可证明其凸传输成本不会增加。此外,递归应用整流操作,能让我们获得一系列路径越来越直的流,在推理阶段,这些流可以通过粗糙的时间离散化进行精确模拟。在实证研究中,我们发现整流流在图像生成、图像到图像的转换以及域适应等任务上表现卓越。特别是在图像生成和转换任务中,我们的方法能生成近乎直线的流,即使仅使用单个欧拉离散化步骤,也能产生高质量的结果。

阅读全文 »

全文翻译

尽管扩散模型具有令人印象深刻的生成能力,但现有的基于扩散模型的风格迁移方法要么需要耗时的推理阶段优化(如风格的微调或文本反转),要么未能充分利用大规模扩散模型的生成能力。为解决这些问题,我们提出了一种基于预训练大规模扩散模型的无需任何优化过程的新型艺术风格迁移方法。具体而言,我们通过模仿交叉注意力机制的工作方式,对自注意力层的特征进行操作:在生成过程中,将内容的键(key)和值(value)替换为风格图像的对应特征。这种方法为风格迁移提供了几个理想特性:1)通过将相似风格传递到相似图像块来保留内容结构;2)基于内容与风格图像之间局部纹理(如边缘)的相似性进行风格传递。此外,我们引入查询保留和注意力温度缩放来缓解原始内容结构被破坏的问题,并提出初始潜在自适应实例归一化(AdaIN)来处理颜色不和谐(风格颜色传递失败)的问题。实验结果表明,我们的方法在传统和基于扩散的风格迁移基准上均超越了现有技术。代码可在https://github.com/jiwoogit/StyleID 获取。

阅读全文 »

全文翻译

摘要

扩散模型在图像、音频和视频生成领域取得了显著进展,但它们依赖于迭代采样过程,导致生成速度较慢。为了克服这一限制,我们提出了一致性模型(Consistency Models),这是一类新的模型,通过直接将噪声映射到数据来生成高质量样本。一致性模型在设计上支持快速单步生成,同时也允许多步采样,以便在计算量和样本质量之间进行权衡。它们还支持零样本数据编辑,如图像修复、上色和超分辨率,而无需在这些任务上进行明确的训练。一致性模型既可以通过提炼预训练的扩散模型进行训练,也可以作为独立的生成模型进行训练。通过大量实验,我们证明了在单步和少步采样中,一致性模型优于现有的扩散模型提炼技术,在CIFAR-10数据集上实现了3.55的最先进FID(Frechet Inception Distance),在64×64分辨率的ImageNet数据集上实现了6.20的最先进FID。在独立训练时,一致性模型成为一类新的生成模型,在CIFAR-10、64×64分辨率的ImageNet和256×256分辨率的LSUN等标准基准测试中,其性能优于现有的单步、非对抗性生成模型。

阅读全文 »

全文翻译

摘要

最近,大规模文本驱动的合成模型因其能够生成高度多样化且符合给定文本提示的图像的卓越能力而备受关注。这种基于文本的合成方法对习惯用语言描述意图的人们来说特别有吸引力。因此,将文本驱动的图像合成扩展到文本驱动的图像编辑是很自然的想法。对于这些生成模型而言,编辑是一项具有挑战性的任务,因为编辑技术的一个固有属性是保留原始图像的大部分内容,而在基于文本的模型中,即使对文本提示进行微小修改,往往也会导致完全不同的结果。最先进的方法通过要求用户提供空间掩码来定位编辑区域,从而缓解了这一问题,但这忽略了掩码区域内的原始结构和内容。在本文中,我们探索了一种直观的 “提示到提示”(Prompt-to-Prompt)编辑框架,其中编辑操作仅由文本控制。为此,我们深入分析了文本条件模型,并观察到交叉注意力层是控制图像空间布局与提示中每个单词之间关系的关键。基于这一观察,我们提出了几种仅通过编辑文本提示来监控图像合成的应用。这包括通过替换单词进行局部编辑、通过添加说明进行全局编辑,甚至可以精细地控制某个单词在图像中体现的程度。我们展示了在各种图像和提示上的结果,证明了合成的高质量以及对编辑后提示的高度保真。

阅读全文 »

全文翻译

摘要

在过去几年里,扩散模型(DMs)在生成式建模任务中取得了巨大成功,能够生成高保真样本。然而,DM的一个主要局限性是其采样过程极为缓慢,通常需要对学习到的扩散过程进行数百到数千次时间离散化步骤才能达到所需的精度。我们的目标是为DM开发一种快速采样方法,在减少步骤的同时保持高样本质量。为此,我们系统地分析了DM中的采样过程,确定了影响样本质量的关键因素,其中离散化方法最为关键。通过仔细研究学习到的扩散过程,我们提出了扩散指数积分采样器(DEIS)。它基于为离散化常微分方程(ODE)设计的指数积分器,并利用学习到的扩散过程的半线性结构来减少离散化误差。所提出的方法可以应用于任何DM,并且能够在仅10步内生成高保真样本。此外,通过直接使用预训练的DM,在得分函数评估次数(NFE)有限的情况下,我们实现了最先进的采样性能,例如在CIFAR10数据集上,10次NFE时的FID为4.17,20次NFE时的FID为2.86。项目页面和代码:https://qsh-zh.github.io/deis

阅读全文 »

全文翻译

摘要

扩散概率模型(DPMs)在高分辨率图像合成中取得了显著成功,尤其是在近期大规模文本到图像生成应用中。一种提高DPMs样本质量的关键技术是引导采样,通常需要较大的引导尺度才能获得最佳样本质量。常用的引导采样快速采样器是DDIM,它是一种一阶扩散常微分方程(ODE)求解器,通常需要100到250步才能生成高质量样本。尽管近期有研究提出了专用的高阶求解器,并在无引导采样方面实现了进一步加速,但它们在引导采样中的有效性此前尚未得到充分测试。在这项工作中,我们证明了以前的高阶快速采样器存在不稳定性问题,并且当引导尺度增大时,它们甚至比DDIM更慢。为了进一步加速引导采样,我们提出了DPM-Solver++,这是一种用于DPMs引导采样的高阶求解器。DPM-Solver++使用数据预测模型求解扩散ODE,并采用阈值化方法使解与训练数据分布相匹配。我们进一步提出了DPM-Solver++的多步变体,通过减小有效步长来解决不稳定性问题。实验表明,DPM-Solver++仅需15到20步就能为像素空间和潜空间DPMs的引导采样生成高质量样本。

阅读全文 »

全文翻译

摘要

我们探索了一类基于Transformer架构的新型扩散模型。我们训练图像的潜在扩散模型,用在潜在图像块上操作的Transformer替换常用的U-Net骨干网络。我们通过以每秒千兆次浮点运算(Gflops)衡量的前向传递复杂度,分析了我们的扩散Transformer(DiT)的可扩展性。我们发现,具有更高Gflops的DiT模型——通过增加Transformer的深度、宽度或增加输入令牌的数量——始终具有更低的FID(弗雷歇初始距离,Frechet Inception Distance)。除了具有良好的可扩展性,我们最大的DiT-XL/2模型在类条件ImageNet 512×512和256×256基准测试中优于所有先前的扩散模型,在后者上实现了2.27的最先进FID分数。

阅读全文 »

全文翻译

摘要

去噪扩散概率模型(DDPMs)能够生成高质量的样本,如图像和音频样本。然而,DDPMs需要数百到数千次迭代才能生成最终样本。此前有多项研究通过调整方差调度(如改进的去噪扩散概率模型)或去噪方程(如去噪扩散隐式模型(DDIMs))成功加速了DDPMs。但是,这些加速方法无法保持样本质量,甚至在高加速比下会引入新的噪声,这限制了它们的实用性。为了在保持样本质量的同时加速推理过程,我们提出了一种全新的观点,即应将DDPMs视为在流形上求解微分方程。基于这一观点,我们提出了适用于扩散模型的伪数值方法(PNDMs)。具体而言,我们明确了如何在流形上求解微分方程,并证明了DDIMs是伪数值方法的简单情形。我们将几种经典的数值方法转换为相应的伪数值方法,发现伪线性多步法在大多数情况下表现最佳。根据实验结果,直接使用在Cifar10、CelebA和LSUN上预训练的模型时,PNDMs仅需50步就能生成比1000步DDIMs质量更高的合成图像(加速20倍),显著优于250步的DDIMs(在FID指标上提高约0.4),并且在不同的方差调度下具有良好的泛化性。

阅读全文 »

全文翻译

摘要

我们认为,当前基于扩散的生成模型在理论和实践上过于复杂,因此试图通过提出一个设计空间来改善这种情况。该设计空间能清晰区分具体的设计选择,有助于我们确定在采样、训练过程以及分数网络预处理方面的若干改进方向。综合这些改进,在类别条件设定下,我们的模型在CIFAR-10数据集上实现了1.79的新最先进FID(弗雷歇距离),在无条件设定下为1.97,且采样速度比先前设计快得多(每生成一张图像仅需进行35次网络评估)。为进一步展示其模块化特性,我们表明,我们的设计改进能显著提升先前工作中预训练分数网络的效率和生成质量。例如,将之前训练的64×64分辨率ImageNet模型的FID从2.07提升至接近最先进的1.55,经过我们提出的改进方法重新训练后,FID达到了新的最先进水平1.36。

阅读全文 »