HyperAI超神经

高质量数据集和可靠的评估方法用于交错图像-文本生成

Yukang Feng, Jianwen Sun, Chuanhao Li, Zizhen Li, Jiaxin Ai, Fanrui Zhang, Yifan Chang, Sizhuo Zhou, Shenglin Zhang, Yu Dai, Kaipeng Zhang
发布日期: 6/16/2025
高质量数据集和可靠的评估方法用于交错图像-文本生成
摘要

近期在大型多模态模型(LMMs)方面的进展显著提升了多模态理解和生成的能力。然而,这些模型在生成紧密交织的图像-文本输出方面仍面临挑战,主要原因是当前训练数据集的规模有限、质量不高以及指令丰富度不足。为了解决这一问题,我们引入了InterSyn,这是一个使用我们自评估与迭代优化(Self-Evaluation with Iterative Refinement, SEIR)方法构建的大规模多模态数据集。InterSyn 包含多轮次、指令驱动的对话,其中图像-文本响应紧密交织,提供了丰富的对象多样性和严格的自动化质量优化,使其非常适合用于训练下一代指令跟随型 LMMs。此外,为了应对缺乏可靠的评估工具来评估交织的多模态输出的问题,我们引入了 SynJudge,这是一种自动评估模型,旨在从四个维度定量评估多模态输出:文本内容、图像内容、图像质量和图像-文本协同效应。实验研究表明,SEIR 方法相比没有优化过程的相同方法显著提高了数据集的质量。此外,基于 InterSyn 训练的 LMMs 在所有评估指标上均表现出一致的性能提升,证实了 InterSyn 对推进多模态系统发展的价值。