0%

diffusion论文阅读感悟

(NSCN Noise Conditional Score Networks) Generative Modeling by Estimating Gradients of the Data Distribution

  • 发表于2019-NeurIPS
  • 核心公式与推导:
  • 创新点:
  • 不足之处:
    因为设计了加噪的马尔可夫过程,导致采样效率低。
  • 提出了一种马尔可夫的加噪与去噪过程,diffusion的经典之作

(DDPM) Denoising Diffusion Probabilistic Models

  • 发表于2020-NeurIPS
  • 核心公式与推导:
  • 创新点:
  • 不足之处:
    因为设计了加噪的马尔可夫过程,导致采样效率低。
  • 提出了一种马尔可夫的加噪与去噪过程,diffusion的经典之作

Palette Image-to-Image Diffusion Models

  • 发表于2021-CVPR

Q: 这篇论文试图解决什么问题?
A: 这篇论文提出了一个统一的框架,用于解决基于条件扩散模型的图像到图像的转换问题。具体来说,它旨在解决以下挑战性图像到图像转换任务:

  • 彩色化(Colorization):将输入的灰度图像转换为具有合理颜色的彩色图像。
  • 修复(Inpainting):在图像中填充用户指定的遮蔽区域,使其内容看起来真实。
  • 去边框(Uncropping):扩展输入图像,使其在至少一个方向上增大。
  • JPEG恢复(JPEG restoration):纠正JPEG压缩产生的伪影,恢复图像的合理细节。

论文的主要贡献包括:

  • 提出了一个简单的图像到图像扩散模型实现,该模型在所有任务上都优于强大的GAN和回归基线,且无需特定任务的超参数调整、架构定制或任何辅助损失。
  • 研究了去噪扩散目标中L2与L1损失对样本多样性的影响。
  • 通过实证研究展示了自注意力在神经架构中的重要性。
    提倡基于ImageNet的统一评估协议,包括人类评估和样本质量分数(FID、Inception Score、预训练ResNet50的分类准确率和与原始图像的感知距离)。
  • 展示了一个通用的、多任务扩散模型在性能上与特定任务专家模型相当或更优。

(Classifier Guidance) diffusion-models-beat-gans-on-image-synthesis

  • 发表于2021-NeurIPS
  • 通过分类器引导(classifier guidance)提高样本质量。这是一种简单且计算效率高的方法,可以在多样性和保真度之间进行权衡,成为stable diffusion的重要基础

Classifier-Free Diffusion Guidance

  • 发表于2021-CVPR-Workshop
  • 论文探讨了是否可以在不依赖额外分类器的情况下实现类似的引导效果。作者提出了无分类器引导方法,通过联合训练条件和无条件扩散模型,并结合这两种模型的分数估计来实现样本质量和多样性之间的权衡。

GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models

  • 发表于2021
  • 这篇论文探讨了如何使用文本引导的扩散模型(text-guided diffusion models)来生成逼真的图像并进行图像编辑。

(DDIM) Denoising Diffusion Implicit Models

  • 发表于2021-ICLR
  • 这篇论文试图解决的问题是提高去噪扩散概率模型(Denoising Diffusion Probabilistic Models, DDPMs)的采样效率。DDPMs在图像生成方面取得了高质量的成果,但它们需要模拟一个马尔可夫链(Markov chain)进行多步迭代才能生成一个样本,这使得采样过程非常耗时。为了加速采样过程,论文提出了去噪扩散隐式模型(Denoising Diffusion Implicit Models, DDIMs),这是一种更高效的迭代隐式概率模型,它与DDPMs有相同的训练过程,但能够通过非马尔可夫过程实现更快的样本生成。DDIMs通过使用非马尔可夫过程,可以在较少的步骤中生成高质量的样本,同时允许在潜在空间中直接进行语义上有意义的图像插值,并以非常低的误差重建观测数据。

(Score-Based Models) Score-Based Generative Modeling through Stochastic Differential Equations

  • 发表于2021-ICLR
  • 提出了一种基于随机微分方程(SDE)的生成模型框架
  • 论文提供了一个统一的框架,可以将现有的基于分数的生成模型(如SMLD和DDPM)整合进来,并允许探索和调整不同的SDE以改进模型性能。
  • 通过引入概率流普通微分方程(ODE),论文提供了一种新的方法来计算精确的似然,这对于扩散模型的加速采样至关重要
  • 利用神经网络估计分数,并使用数值SDE求解器生成样本。提出了预测-校正(PC)框架,结合数值SDE求解器和基于分数的MCMC方法,以提高采样质量。

(IDDPM) Improved Denoising Diffusion Probabilistic Model

  • 发表于2021-ICML
  • 通过学习逆向过程的方差Σθ(xt, t)并使用一个简单的重参数化技巧,结合了VLB和Ho et al. (2020)提出的简化目标的混合学习目标,以更紧密地优化VLB。
  • 出了一种新的余弦加噪过程,它在扩散过程的中间线性下降,在t=0和t=T时变化缓慢,以防止噪声水平的突然变化
  • 提高采样速度:通过在模型中纳入学习到的方差,发现可以在更少的步骤中进行采样,而对样本质量的影响很小。这显著加快了采样速度,使得在实际应用中的采样更加高效

(LDM: Stable Diffusion原型) High-Resolution Image Synthesis with Latent Diffusion Models

  • 发表于2022-CVPR
  • 潜在空间训练:论文提出在预训练的自编码器的潜在空间中训练扩散模型,而不是直接在像素空间。这样做可以显著降低数据的维度,从而减少计算复杂性。
  • 交叉注意力机制:为了使扩散模型能够处理多种条件输入(如文本或边界框),论文引入了交叉注意力层。这使得模型能够灵活地处理各种输入模式,同时保持高效的并行处理能力。

(ADPM) Analytic-DPM an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models

  • 发表于2022-ICLR
  • 提供了一种无需额外训练即可提高预训练DPMs推理效率的方法,通过使用蒙特卡洛方法和预训练的基于分数的模型来估计方差和KL散度的解析形式,从而改进了逆向过程的方差估计,推导出了最优方差的上下界,并通过对估计值进行剪辑来获得更好的结果

(DPM-Solver) DPM-Solver-A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps

  • 发表于2022-NeurIPS
  • 提出了一个名为 DPM-Solver 的快速、专用的高阶求解器,用于解决与 DPMs 相关的扩散常微分方程(ODEs)。DPM-Solver 利用扩散 ODEs 的半线性结构,通过分析计算线性部分的解,避免了将所有项留给黑盒 ODE 求解器,从而减少了离散化误差。此外,通过变量替换,解可以简化为神经网络的指数加权积分,这可以通过指数积分器的数值方法高效近似。

(PNMD) Pseudo Numerical Methods for Diffusion Models on Manifolds

  • 发表于2022-ICLR
  • 加速采样器

(EDM) Elucidating the Design Space of Diffusion-Based Generative Models

  • 发表于2022-NeurIPS
  • 大一统的diffusion的论文,必须深刻理解