从反思到完美:通过反思调整对文本到图像扩散模型的推理时间优化进行扩展
Le Zhuo, Liangbing Zhao, Sayak Paul, Yue Liao, Renrui Zhang, Yi Xin, Peng Gao, Mohamed Elhoseiny, Hongsheng Li
发布日期: 4/23/2025

摘要
近期的文本到图像扩散模型通过大量扩展训练数据和模型参数,实现了令人印象深刻的视觉质量,然而它们在处理复杂场景和精细细节时常常遇到困难。受到大型语言模型中自我反思能力的启发,我们提出了ReflectionFlow框架,该框架在推理阶段使扩散模型能够迭代地反思并改进其输出。ReflectionFlow引入了三个互补的推理阶段扩展轴:(1)噪声级别扩展以优化潜在变量的初始化;(2)提示级别扩展以提供精确的语义指导;最重要的是,(3)反思级别扩展,它明确地提供可操作的反思以迭代评估并纠正之前的生成结果。为了促进反思级别的扩展,我们构建了GenRef数据集,该数据集包含100万组三元组,每组三元组包括一个反思、一张有缺陷的图像和一张增强后的图像。利用此数据集,我们对最先进的扩散变压器FLUX.1-dev进行了高效的反思调优,在统一框架内共同建模多模态输入。实验结果显示,ReflectionFlow显著优于简单的噪声级别扩展方法,为具有挑战性的任务提供了可扩展且计算效率高的高质量图像合成解决方案。