【CVPR2026】CREval: 一个针对复杂指令创意图像生成的自动化可解释评估框架

张开发
2026/5/20 6:55:18 15 分钟阅读
【CVPR2026】CREval: 一个针对复杂指令创意图像生成的自动化可解释评估框架
CREval: An Automated Interpretable Evaluation for Creative Image Manipulation under Complex Instructions论文链接https://arxiv.org/abs/2603.26174GitHubhttps://github.com/ChonghuinanWang/CREvalBenchmark数据集下载https://huggingface.co/datasets/ChonghuinanWang/CREval目录一、引言二、CREval-Bench三、方法四、实验一、引言当前用户对自由形式的图像生成或图像编辑的需求越来越多编辑指令也逐渐复杂但目前缺少一个系统的、人类对齐的框架去评估生成模型在创意图像生成任务的性能所以本文专门针对这类任务设计了一个评估方案。现有的Benchmark主要针对添加、删除、替换物体或者一些简单的逻辑推理任务而我们希望能够对主流生成模型在指令更复杂形式更自由内容更有创意时的生成和编辑效果进行一个评估因此制作了CREval-Bench。CREval-Bench主要依赖多模态大模型进行直接打分所以是全自动化的不需要手工参与。当前也有很多评估方法是使用大模型进行自动化打分但与其他用大模型直接评分的方案不同的是一方面现有大多数自动评估方法是大模型直接打分是黑盒的不具有可解释性因此潜在的大模型bias问题会比较严重但CREval是基于问答对来进行打分因此可以直观地看见生成的图像在哪里得分、哪里扣分具有很强的可解释性而且问答对本身相对客观所以bias问题相对较小。二、CREval-BenchCREval对每一张图从指令遵循IF、视觉一致性VC、视觉质量VQ三个评估指标方面进行考量每个评估指标至少包含5个问题问题数量会随着图像或者指令的难度进行适当增加所以说每张生成图都对应包含至少15个问答对通过和人工提出的问题进行过比较问题覆盖率达到80%最终构建了一个Benchmark——CREval-Bench。总体来看CREval-Bench共包含三个创意类型和9个创意维度每个维度的样本数量是均衡的一共包含874张图像和13k个问答对。三、方法接下来介绍制作CREval-Bench的过程和使用CREval方法进行评估的pipeline首先第一步是先收集高质量的原始图像图像来源包括几个现有的公开数据集、和互联网上直接收集的图像然后使用gpt-4o去生成编辑指令期间会人为输入一些指令示例规定要生成的创意指令类型。第二步是要生成评估问题从IF、VC、VQ三个指标出发每个指标对应不同的问题生成prompt生成过程采用cot的方式先拆解编辑指令然后分析需要改变的或者不能改变的元素最后生成问答对。刚才提过每个指标对应的问题不少于5个每张图像会对应至少15个问答对供之后进行评估。对于VC有些元素很重要有些没那么重要但是也很重要所以设置了一个权重。最后就是使用视觉语言大模型对输入的原始图像和编辑后的图像以及问题进行回答回答的结果和参考答案进行比较来计入一个得分。在打分时采用了加权平均文中给出解释是因为大模型对视觉质量不敏感察觉不出图像中的质量问题如肢体扭曲等且指令遵循和视觉一致性在编辑过程中同等重要。另外额外做了权重对比分析。四、实验实验分别在开源和闭源的主流生成模型上进行测试实验结果显示各模型各有所长。在闭源模型中Seedream4.0表现最佳Gemini-2.5-flash-image在视觉一致性维度最佳GPT-image-1由于在视觉一致性表现不佳导致总分被拉低在开源模型中Qwen-image-Edit和FLUX.1 Kontext [dev]表现较好其中FLUX的视觉一致性表现要优于Qwen-image-Edit而表中的UniWorld-V1的VC指标最高是因为该模型在复杂指令的创意生成任务上的能力不足导致生成图与原图的差异不明显因此不具有参考价值。另外本文进行了人类偏好验证。为了验证方法有效除了GPT4o外还选择了Qwen3-VL作为评估器实验表明CREval方法与人类偏好一致。Qwen-Image-Edit和GPT-Image-1两个模型表现相近。

更多文章