论文总结
my paper
试验记录
2025-ICML-Differentiable Solver Search for Fast Diffusion Sampling论文精读
全文翻译
摘要
扩散模型已展现出卓越的生成质量,但其代价是需要大量的函数评估。最近,基于常微分方程(ODE)的高级求解器被开发出来,旨在减轻有限采样步骤下反向扩散求解的巨大计算需求。然而,这些求解器深受亚当斯(Adams)类多步法的启发,仅依赖于与时间$t$相关的拉格朗日插值。我们发现,与时间$t$相关的拉格朗日插值对于扩散模型而言并非最优,并揭示了一个由时间步长和求解器系数构成的紧凑搜索空间。基于这一分析,我们提出了一种新颖的可微求解器搜索算法,以识别更优的求解器。配备所搜索到的求解器后,整流流(rectified-flow)模型(如SiT-XL/2和FlowDCN-XL/2)在ImageNet-256×256数据集上仅用10步就能分别达到2.40和2.35的FID分数。同时,DDPM模型DiT-XL/2在仅10步的情况下达到了2.33的FID分数。值得注意的是,我们搜索到的求解器显著优于传统求解器(甚至一些蒸馏方法)。此外,该求解器在各种模型架构、分辨率和模型大小上都表现出良好的通用性。
2025-CVPR-Schedule On the Fly Diffusion Time Prediction for Faster and Better Image Generation论文精读
全文翻译
摘要
扩散模型和流匹配模型在文本到图像生成任务中取得了显著成功。然而,这些模型通常依赖于为所有提示词预先设定的去噪调度方案。多步反向扩散过程可以看作是一种逐步生成高质量图像的“思维链”。因此,扩散模型应该为每个实例进行推理,自适应地确定最优噪声调度方案,以实现高效采样的同时保证高生成质量。在本文中,我们为此引入了时间预测扩散模型(TPDM)。
TPDM采用了一个即插即用的时间预测模块(TPM),该模块在每个去噪步骤中根据当前的潜在特征预测下一个噪声水平。我们使用强化学习来训练TPM,以最大化一个奖励值,该奖励值鼓励生成高质量的最终图像,同时惩罚过多的去噪步骤。通过这种自适应调度器,TPDM不仅能生成与人类偏好高度一致的高质量图像,还能动态调整扩散时间和去噪步骤数量,从而同时提升性能和效率。
基于Stable Diffusion 3 Medium架构,TPDM的美学评分达到5.44,人类偏好评分(HPS)达到29.59,同时使用约50%的去噪步骤就能实现更优的性能。
2025-CVPR-Scaling Inference Time Compute for Diffusion Models论文精读
全文翻译
摘要
生成模型在各个领域都产生了重大影响,这在很大程度上得益于它们在训练过程中通过增加数据、计算资源和模型规模来实现扩展的能力,这种现象可以用缩放定律来描述。最近的研究开始探索大型语言模型(LLMs)在推理阶段的缩放行为,揭示了在推理过程中投入更多计算资源如何能进一步提升性能。与大型语言模型不同,扩散模型本质上具有通过调整去噪步骤数量来灵活分配推理阶段计算资源的能力,尽管在经过几十步后,性能提升通常会趋于平缓。在这项研究中,我们探索了扩散模型超越增加去噪步骤之外的推理阶段缩放行为,并研究了如何通过增加计算资源来进一步提升生成性能。具体而言,我们考虑了一个旨在为扩散采样过程寻找更优噪声的搜索问题。我们沿着两个维度构建设计空间:用于提供反馈的验证器,以及用于寻找更优噪声候选的算法。通过在类别条件和文本条件图像生成基准上进行的大量实验,我们的研究结果表明,增加推理阶段的计算资源会显著提升扩散模型生成样本的质量,并且由于图像的复杂性,可以专门选择框架中各组件的组合,以适应不同的应用场景。
2025-CVPR-RayFlow Instance-Aware Diffusion Acceleration via Adaptive Flow Trajectories论文精读
全文翻译
摘要
扩散模型在多个领域都取得了显著成功。然而,其生成速度缓慢仍是一个关键挑战。现有的加速方法虽以减少步骤为目标,但往往会牺牲样本质量、可控性或增加训练复杂性。为此,我们提出了RayFlow,这是一种新颖的扩散框架,旨在解决这些局限性。与以往方法不同,RayFlow引导每个样本沿着独特路径朝着特定于实例的目标分布演进。该方法在最大限度减少采样步骤的同时,保留了生成的多样性和稳定性。此外,我们引入了时间采样器(Time Sampler),这是一种重要性采样技术,通过聚焦关键时间步来提高训练效率。大量实验表明,与现有的加速技术相比,RayFlow在生成高质量图像方面具有优势,同时提升了速度、可控性和训练效率。
2025-CVPR-Random Conditioning for Diffusion Model Compression with Distillation论文精读
全文翻译
摘要
扩散模型通过渐进式去噪生成高质量图像,但由于模型规模庞大且采样过程重复,其计算成本较高。知识蒸馏——将知识从复杂的教师模型迁移到更简单的学生模型——已在识别任务中得到广泛研究,尤其适用于迁移学生训练过程中未见过的概念。然而,其在扩散模型中的应用仍未得到充分探索,特别是在使学生模型能够生成训练图像中未涵盖的概念方面。在本研究中,我们提出了“随机条件调节”(Random Conditioning)这一新颖方法,通过将带噪图像与随机选择的文本条件配对,实现高效的无图像知识蒸馏。实验表明,借助该技术,学生模型能够生成训练图像中未出现过的概念。将其应用于条件扩散模型蒸馏时,该方法允许学生模型在无需生成特定条件图像的情况下探索条件空间,从而在生成质量和效率上均取得显著提升。这一成果推动了生成式扩散模型的资源高效部署,拓宽了其在研究和实际应用中的可及性。代码、模型和数据集可访问:https://dohyun-as.github.io/Random-Conditioning/
2025-CVPR-Optimizing for the Shortest Path in Denoising Diffusion Model全部内容
全文翻译
摘要
在本研究中,我们提出了一种基于最短路径建模的新型去噪扩散模型,该模型通过优化残差传播来同时提升去噪效率和质量。借鉴去噪扩散隐式模型(DDIM)和图论的见解,我们的模型被称为最短路径扩散模型(ShortDF),它将去噪过程视为一个以最小化重建误差为目标的最短路径问题。通过优化初始残差,我们提高了反向扩散过程的效率和生成样本的质量。在多个标准基准上的大量实验表明,与现有技术相比,ShortDF显著减少了扩散时间(或步骤),同时提高了生成样本的视觉保真度。我们认为,这项工作为基于扩散的交互式应用铺平了道路,并为快速数据生成奠定了基础。代码可在https://github.com/UnicomAI/ShortDF获取。