全文翻译
摘要
作为一种具有高表达能力的生成模型,扩散模型已在包括图像生成、自然语言处理和组合优化等多个领域展现出卓越的成功。然而,随着数据分布变得愈发复杂,将这些模型训练至收敛所需的计算资源也日益增加。尽管扩散模型通常采用均匀时间步长采样进行训练,但我们的研究表明,随机梯度的方差在不同时间步长间存在显著差异,高方差的时间步长成为阻碍更快收敛的瓶颈。为解决这一问题,我们引入了一种非均匀时间步长采样方法,该方法优先处理这些更为关键的时间步长。我们的方法通过跟踪每个时间步长的梯度更新对目标函数的影响,自适应地选择最有可能有效最小化目标函数的时间步长。实验结果表明,这种方法不仅加速了训练过程,还在收敛时提升了性能。此外,我们的方法在各种数据集、调度策略和扩散架构上均表现出稳健的性能,优于此前提出的缺乏这种稳健性的时间步长采样和加权启发式方法。