Lzq's blog

2025-CVPR-Scaling Inference Time Compute for Diffusion Models论文精读

发表于 2025-07-14 分类于 AI

全文翻译

摘要

生成模型在各个领域都产生了重大影响，这在很大程度上得益于它们在训练过程中通过增加数据、计算资源和模型规模来实现扩展的能力，这种现象可以用缩放定律来描述。最近的研究开始探索大型语言模型（LLMs）在推理阶段的缩放行为，揭示了在推理过程中投入更多计算资源如何能进一步提升性能。与大型语言模型不同，扩散模型本质上具有通过调整去噪步骤数量来灵活分配推理阶段计算资源的能力，尽管在经过几十步后，性能提升通常会趋于平缓。在这项研究中，我们探索了扩散模型超越增加去噪步骤之外的推理阶段缩放行为，并研究了如何通过增加计算资源来进一步提升生成性能。具体而言，我们考虑了一个旨在为扩散采样过程寻找更优噪声的搜索问题。我们沿着两个维度构建设计空间：用于提供反馈的验证器，以及用于寻找更优噪声候选的算法。通过在类别条件和文本条件图像生成基准上进行的大量实验，我们的研究结果表明，增加推理阶段的计算资源会显著提升扩散模型生成样本的质量，并且由于图像的复杂性，可以专门选择框架中各组件的组合，以适应不同的应用场景。

阅读全文 »

2025-CVPR-RayFlow Instance-Aware Diffusion Acceleration via Adaptive Flow Trajectories论文精读

发表于 2025-07-14 分类于 AI

全文翻译

摘要

扩散模型在多个领域都取得了显著成功。然而，其生成速度缓慢仍是一个关键挑战。现有的加速方法虽以减少步骤为目标，但往往会牺牲样本质量、可控性或增加训练复杂性。为此，我们提出了RayFlow，这是一种新颖的扩散框架，旨在解决这些局限性。与以往方法不同，RayFlow引导每个样本沿着独特路径朝着特定于实例的目标分布演进。该方法在最大限度减少采样步骤的同时，保留了生成的多样性和稳定性。此外，我们引入了时间采样器（Time Sampler），这是一种重要性采样技术，通过聚焦关键时间步来提高训练效率。大量实验表明，与现有的加速技术相比，RayFlow在生成高质量图像方面具有优势，同时提升了速度、可控性和训练效率。

阅读全文 »

2025-CVPR-Random Conditioning for Diffusion Model Compression with Distillation论文精读

发表于 2025-07-14 分类于 AI

全文翻译

摘要

扩散模型通过渐进式去噪生成高质量图像，但由于模型规模庞大且采样过程重复，其计算成本较高。知识蒸馏——将知识从复杂的教师模型迁移到更简单的学生模型——已在识别任务中得到广泛研究，尤其适用于迁移学生训练过程中未见过的概念。然而，其在扩散模型中的应用仍未得到充分探索，特别是在使学生模型能够生成训练图像中未涵盖的概念方面。在本研究中，我们提出了“随机条件调节”（Random Conditioning）这一新颖方法，通过将带噪图像与随机选择的文本条件配对，实现高效的无图像知识蒸馏。实验表明，借助该技术，学生模型能够生成训练图像中未出现过的概念。将其应用于条件扩散模型蒸馏时，该方法允许学生模型在无需生成特定条件图像的情况下探索条件空间，从而在生成质量和效率上均取得显著提升。这一成果推动了生成式扩散模型的资源高效部署，拓宽了其在研究和实际应用中的可及性。代码、模型和数据集可访问：https://dohyun-as.github.io/Random-Conditioning/

阅读全文 »

2025-CVPR-Optimizing for the Shortest Path in Denoising Diffusion Model全部内容

发表于 2025-07-11 更新于 2025-07-13 分类于 AI

全文翻译

摘要

在本研究中，我们提出了一种基于最短路径建模的新型去噪扩散模型，该模型通过优化残差传播来同时提升去噪效率和质量。借鉴去噪扩散隐式模型（DDIM）和图论的见解，我们的模型被称为最短路径扩散模型（ShortDF），它将去噪过程视为一个以最小化重建误差为目标的最短路径问题。通过优化初始残差，我们提高了反向扩散过程的效率和生成样本的质量。在多个标准基准上的大量实验表明，与现有技术相比，ShortDF显著减少了扩散时间（或步骤），同时提高了生成样本的视觉保真度。我们认为，这项工作为基于扩散的交互式应用铺平了道路，并为快速数据生成奠定了基础。代码可在https://github.com/UnicomAI/ShortDF获取。

阅读全文 »

2025-CVPR-NitroFusion High-Fidelity Single-Step Diffusion through Dynamic Adversarial Training论文精读

发表于 2025-07-10 更新于 2025-07-11 分类于 AI

全文翻译

摘要

我们提出了NitroFusion，这是一种截然不同的单步扩散方法，它通过动态对抗框架实现了高质量生成。尽管单步方法具有显著的速度优势，但与多步方法相比，它们通常存在质量下降的问题。就像一组艺术评论家通过专注于构图、色彩和技巧等不同方面来提供全面反馈一样，我们的方法维持了一个庞大的专业判别器头池，这些判别器头共同指导生成过程。每个判别器组都在不同的噪声水平上培养特定质量方面的专业知识，提供多样化的反馈，从而实现高保真的单步生成。我们的框架结合了：（i）具有专业判别器组的动态判别器池，以提高生成质量；（ii）战略性刷新机制，防止判别器过拟合；（iii）用于多尺度质量评估的全局-局部判别器头，以及用于平衡生成的无条件/条件训练。此外，我们的框架通过自底向上的细化独特地支持灵活部署，允许用户使用相同的模型动态选择1-4个去噪步骤，以直接进行质量-速度权衡。通过全面的实验，我们证明NitroFusion在多个评估指标上显著优于现有的单步方法，尤其在保留精细细节和全局一致性方面表现出色。

阅读全文 »

2025-CVPR-Layer and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers 论文精读

发表于 2025-07-10 分类于 AI

全文翻译

摘要

扩散Transformer（DiTs）已实现了最先进（SOTA）的图像生成质量，但存在延迟高和内存效率低的问题，使其难以在资源受限的设备上部署。一个主要的效率瓶颈是，现有的DiTs在图像的所有区域上应用了同等的计算量。然而，并非所有图像令牌都同等重要，某些局部区域（如物体）需要更多计算。为解决这一问题，我们提出了DiffCR，这是一种具有可微分压缩比的动态DiT推理框架，它能自动学习为每个图像令牌跨层和跨时间步动态分配计算资源，从而实现高效的DiTs。具体而言，DiffCR集成了三个特性：（1）令牌级路由机制，其中每个DiT层包含一个路由器，该路由器与模型权重联合微调以预测令牌重要性分数。通过这种方式，不重要的令牌可以绕过整个层的计算；（2）层级可微分比率机制，不同的DiT层从零初始化开始自动学习不同的压缩比，使得冗余层的压缩比较大，而其他层的压缩比较小甚至不压缩；（3）时间步级可微分比率机制，每个去噪时间步学习其自身的压缩比。由此产生的模式显示，在噪声较大的时间步压缩比较高，而随着图像变得更清晰，压缩比逐渐降低。在文本到图像和图像修复任务上的大量实验表明，DiffCR有效地捕捉了令牌、层和时间步三个维度的动态性，与先前的工作相比，在生成质量和效率之间取得了更优的权衡。

阅读全文 »

2025-CVPR-DreamCache Finetuning-Free Lightweight Personalized Image Generation via Feature Caching论文精读

发表于 2025-07-10 分类于 AI

全文翻译

摘要

个性化图像生成需要文本到图像的生成模型捕捉参考主体的核心特征，以便在不同场景下实现可控生成。现有方法面临着训练要求复杂、推理成本高、灵活性有限等挑战，或这些问题的组合。在本文中，我们提出了DreamCache，一种可扩展的高效高质量个性化图像生成方法。通过缓存预训练扩散去噪器的部分层和单个时间步的少量参考图像特征，DreamCache能够通过轻量级的、经过训练的条件适配器动态调制生成图像的特征。DreamCache实现了最先进的图像与文本对齐效果，额外参数数量减少了一个数量级，且比现有模型计算效率更高、用途更广泛。

阅读全文 »

2025-CVPR-CacheQuant Comprehensively Accelerated Diffusion Models论文精读

发表于 2025-07-09 更新于 2025-07-10 分类于 AI

全文翻译

摘要

扩散模型在图像合成领域逐渐崭露头角，展现出卓越的生成能力。然而，由于时间和结构层面的冗余导致推理速度缓慢且网络复杂，阻碍了其在现实场景中的低延迟应用。当前针对扩散模型的加速方法分别聚焦于时间层面和结构层面。但在每个层面进行独立优化以进一步突破加速极限时，会导致性能显著下降。另一方面，整合两个层面的优化可以增强加速效果。遗憾的是，我们发现这两个层面的优化并非完全正交。先进行单独优化再简单整合，会导致性能不理想。为解决这一问题，我们提出了CacheQuant，这是一种全新的无训练范式，通过联合优化模型缓存和量化技术来全面加速扩散模型。具体而言，我们采用动态规划方法确定最优缓存调度，其中仔细考虑了缓存和量化的特性，以最小化误差。此外，我们提出解耦误差校正，逐步减轻耦合和累积的误差。实验结果表明，在MS-COCO数据集上，CacheQuant对Stable Diffusion实现了5.18倍的加速和4倍的压缩，而CLIP分数仅下降0.02。我们的代码已开源。

阅读全文 »

2025-CVPR-BlockDance Reuse Structurally Similar Spatio-Temporal Features to Accelerate Diffusion Transformers论文精读

发表于 2025-07-08 分类于 AI

全文翻译

摘要

扩散模型已展现出令人印象深刻的生成能力，特别是在最近借助Transformer架构来提升视觉和艺术质量的进展中。然而，扩散Transformer（DiTs）仍面临推理速度慢的挑战，这主要是由其迭代去噪过程导致的。为解决这一问题，我们提出了BlockDance，这是一种无需训练的方法，它通过探索相邻时间步的特征相似性来加速DiTs。与以往那些缺乏针对不同尺度特征的定制化重用策略的特征重用方法不同，BlockDance优先识别那些结构性最相似的特征，即结构相似的时空（STSS）特征。这些特征主要位于Transformer中专注于结构的块内，且出现在去噪的后期阶段。BlockDance对这些高度相似的特征进行缓存和重用，以减少冗余计算，从而在加速DiTs的同时，最大程度地保证与原始模型生成结果的一致性。此外，考虑到生成内容的多样性以及冗余特征分布的差异性，我们引入了BlockDance-Ada，这是一种轻量级决策网络，专为特定实例的加速而设计。BlockDance-Ada能够动态分配资源，并提供更优的内容质量。事实证明，BlockDance和BlockDance-Ada在各种生成任务和模型上均有效，在保持生成质量的同时，实现了25%至50%的加速。

阅读全文 »

2024-IJCAI-Boosting-Diffusion-Models-with-an-Adaptive-Momentum-Sampler论文精读

发表于 2025-07-07 更新于 2025-07-31 分类于 AI

全文翻译

摘要

扩散概率模型（DPMs）已被证明能够生成高质量图像，且无需复杂的对抗训练。然而，当前DPMs中的采样过程容易出现剧烈波动。本文提出了一种受广泛使用的Adam优化器启发的新型DPMs反向采样器。该采样器可直接应用于预训练的扩散模型，通过动量机制和自适应更新来平滑反向采样过程，确保生成的稳定性，从而提升输出质量。通过隐式复用早期步骤的更新方向，所提采样器在高层语义与低层细节之间实现了更好的平衡。此外，该采样器具有灵活性，无论训练时使用何种采样器，都能轻松集成到预训练的DPMs中。在多个基准测试上的实验结果表明，所提反向采样器相较于不同基线方法有显著改进。我们将公开源代码。

阅读全文 »