全文翻译
尽管扩散模型具有令人印象深刻的生成能力,但现有的基于扩散模型的风格迁移方法要么需要耗时的推理阶段优化(如风格的微调或文本反转),要么未能充分利用大规模扩散模型的生成能力。为解决这些问题,我们提出了一种基于预训练大规模扩散模型的无需任何优化过程的新型艺术风格迁移方法。具体而言,我们通过模仿交叉注意力机制的工作方式,对自注意力层的特征进行操作:在生成过程中,将内容的键(key)和值(value)替换为风格图像的对应特征。这种方法为风格迁移提供了几个理想特性:1)通过将相似风格传递到相似图像块来保留内容结构;2)基于内容与风格图像之间局部纹理(如边缘)的相似性进行风格传递。此外,我们引入查询保留和注意力温度缩放来缓解原始内容结构被破坏的问题,并提出初始潜在自适应实例归一化(AdaIN)来处理颜色不和谐(风格颜色传递失败)的问题。实验结果表明,我们的方法在传统和基于扩散的风格迁移基准上均超越了现有技术。代码可在https://github.com/jiwoogit/StyleID 获取。