PATCH-AS-DECODABLE-TOKEN: TOWARDS UNIFIED MULTI-MODAL VISION TASKS IN MLLMS

张开发
2026/5/18 21:42:26 15 分钟阅读
PATCH-AS-DECODABLE-TOKEN: TOWARDS UNIFIED MULTI-MODAL VISION TASKS IN MLLMS
链接https://arxiv.org/pdf/2510.01954发表2025 arxivgithubhttps://github.com/Gorilla-Lab-SCUT/PaDTABSTRACT近年来多模态大语言模型MLLMs取得了飞速发展 。然而现有的视觉任务方法往往依赖于间接表示例如通过生成文本格式的坐标进行检测这限制了性能并阻碍了诸如分割等密集预测任务的实现 。为了克服这些挑战我们引入了 Patch-as-Decodable TokenPaDT这是一种统一的范式使 MLLM 能够直接生成文本和多样化的视觉输出 。PaDT 的核心是视觉参考 TokenVRTs它们源自查询图像的视觉补丁嵌入并与大语言模型LLM输出的文本 Token 无缝交错 。随后一个轻量级解码器将 LLM 的输出转化为检测、分割和地面化grounding预测 。与以往的方法不同PaDT 在每次前向传播中独立处理 VRTs 并动态扩展嵌入表从而提高了对相似物体的定位和区分能力 。我们还为 PaDT 量身定制了一种训练策略通过随机选择 VRTs 进行监督微调并引入了稳健的逐 Token 交叉熵损失 。我们在四项视觉感知和理解任务上的实证研究表明PaDT 持续保持着最先进的性能甚至优于规模大得多的 MLLM 模型 。代码可在以下网址获取https://github.com/Gorilla-Lab-SCUT/PaDT 。1 INTRODUCTION细粒度图像感知与理解旨在将特定的图像区域与上下文信息如语义或实例联系起来这是计算机视觉中的一项基础任务并构成众多应用的基石。经典视觉模型Ren et al., 2015Redmon et al., 2016Carion et al., 2020在纯检测和分割任务中仍处于最先进水平但由于缺乏灵活的语言交互与理解能力它们难以支持面向开放词汇的视觉推理任务。在早期阶段受 CLIP 启发许多视觉语言检测方法如 GLIP 和 Grounding DINO通过引入语言信息实现任意类别的目标检测。然而这些方法本质上仍是以视觉为中心的骨干网络加上语言增强因此在处理复杂文本描述时表现受限并且仅能生成结构化输出。近年来的发展催生了强大的多模态大语言模型MLLMs它们将视觉编码器与大语言模型LLMs结合。在大规模多模态数据上预训练后这些模型蕴含丰富的先验知识为视觉感知与理解提供了坚实基础如图1所示。为了适配 LLM 的文本输出空间大多数现有 MLLM 将检测区域序列化为文本形式的边界框坐标例如 ([x_1, y_1, x_2, y_2])。尽管这一策略直观但带来了若干挑战。首先即使在相同提示下不同样本的输出格式往往不一致如图2(a)所示从而增加了解析与结构化处理的难度。其次数值坐标虽然提供精确空间信息但缺乏文本与视觉之间的语义对齐如图2(b)所示这种不匹配可能导致重复或幻觉问题。此外由于数值被映射为离散文本 token一个坐标值可能被拆分为多个不相关 token如图2(b)所示这种不连续性会影响预测准确性例如数字碎片化。在本文中我们提出一种统一范式——Patch-as-Decodable Token使 MLLM 能够以统一且灵活的方式直接生成文本与多样化视觉目标。为此我们提出视觉参考 TokenVisual Reference Tokens, VRTs其可与 LLM 输出的文本 token 无缝交织。VRT 由所提出的动态嵌入模块生成直接来源于原始视觉补丁嵌入从而与 LLM 处于一致的特征空间并且每个 VRT 明确对应查询图像中的一个特定补丁。因此VRT 可以在 LLM 的特征空间中被自然解读使模型能够以细粒度方式用多个 VRT 表示目标对象。基于该设计PaDT 天然支持多样化视觉输出如语义分割掩码和边界框。具体而言MLLM 只需预测 VRT 的子集随后由轻量级解码器将其解码为最终结构化视觉输出。已有工作Ma et al., 2025尝试通过全局码本离散化图像补丁 token 来表示图像中的目标但由于需要维护全局码本其灵活性与泛化能力受限。一方面模型可能预测出查询图像中不存在的视觉 token另一方面解码后的视觉 token 与查询图像之间缺乏唯一对应关系从而导致预测 token 与图像区域之间的错配例如图像中相似物体的混淆。相比之下PaDT 在每次前向传播中独立处理 VRT因而更加高效。通过保持与 LLM 对齐的高层语义特征空间并保留每个图像区域的唯一位置信息PaDT 能够生成更加连贯的预测如图2(c)所示。此外如图2(d)所示VRT 在物体区域上的预测表现出良好的空间连续性。为了使 PaDT 获得更强性能我们设计了有效的微调策略并提出针对视觉参考 Token 的逐 token 交叉熵损失以稳定训练并缓解过拟合问题。值得注意的是我们的 3B 模型在 COCO 检测任务上相比此前最先进方法提升了 19.0 mAP并在指代表达理解REC任务中达到 93.6 的平均准确率超过了规模更大的 78B InternVL3 模型。本文的主要贡献总结如下• 我们提出统一范式 PaDT使 MLLM 能够以统一且灵活的方式直接生成文本与多样化视觉目标。通过提出的视觉参考 TokenVRT该方法在多种细粒度视觉感知与理解任务上取得了优越性能。• 我们提出了一种轻量且鲁棒的基于 VRT 的解码器PaDT Decoder能够将生成的 VRT 统一解码为多种细粒度结构化视觉输出如分割掩码与边界框。• 其我们设计了有效的微调策略及稳健的逐 token 交叉熵损失使 PaDT 在多种视觉感知与理解任务上达到最先进水平有效性不仅体现在感知任务中也在定制图像描述任务中得到验证。2 RELATED WORK多模态大语言模型。随着大语言模型LLMs的快速发展多模态大语言模型MLLMs已成为处理视觉语言推理任务的强大系统 。早期的里程碑工作如 CLIP 和 ALIGN证明了大尺寸对比预训练在构建联合视觉文本表示方面的有效性 。BLIP-2 通过 Q-former 设计进一步提升了对齐效果 。近期包括 LLaVA 和 MiniGPT-4 在内的经过指令微调的 MLLM 利用多模态指令数据在开放式视觉问答和推理中表现出色 。在此基础上后续工作将能力扩展到了高分辨率图像理解如 LLaVA-Next、LLaVA-UHD、多样化指令集、多图输入及视频输入并探索了新的预训练目标和架构设计 。总的来说这些进展使 MLLM 成为能够进行多模态推理的多功能通用模型 。视觉感知与理解中的 MLLMs。尽管通用 MLLM 具备广泛的能力但在细粒度感知任务中仍受限 。这很大程度上源于视觉编码器对固定补丁网格的依赖这往往会模糊局部细节损害物体定位、计数或 OCR 等任务的性能 。为了缓解这一问题一些自适应分块策略如 NaViT 风格的补丁丢弃和 AnyRes允许灵活处理变分辨率的图像块从而提升空间分辨率 。另一类研究探索了利用强化学习增强感知和推理能力如 VLM-R1、Visual-RFT、VisRL 和 Seg-R1这些方法实现了更好的泛化能力以及分割和地面化等涌现能力 。先前的研究主要依靠强化学习或指令微调来加强视觉推理但利用学习到的查询learned queries作为视觉感知锚点的潜力尚未得到充分挖掘 。此外设计一个能无缝适配多种视觉任务的统一架构仍然是一个开放性的挑战 。统一视觉标记化。一个互补的研究方向专注于通过多粒度标记化tokenization来统一视觉和语言表示 。在区域层级相关方法将物体框或掩码转换为几何标记或可学习的代理通常由检测器或 SAM 引导从而实现更精确的视觉语言地面化 。在补丁层级Emu 系列和 LaVIT 等模型将源自 CLIP 的补丁特征视为视觉词表以实现更密集的对齐 。近期的工作进一步引入了图像补丁的自回归量化将像素离散化为“视觉句子”以支持高效的跨模态建模甚至探索了更细粒度的标记化 。虽然这些方法通过区域、实例或像素标记来模拟语言结构但视觉与语言之间的深度语义融合仍然有限 。为了解决这一问题我们提出了一个动态多模态标记空间在统一的自回归建模范式下实现了语言标记与视觉补丁之间的紧密对应 。3 METHODOLOGY3.1 REVISITING MULTIMODAL LARGE LANGUAGE MODELS基于文本的视觉预测局限性。由于与底层 LLM 架构的兼容性要求当前的多模态大语言模型MLLMs被限制为仅接受文本-视觉表示作为输入并仅产生文本输出 。这种局限性对于诸如物体检测和图像分割等结构化视觉任务而言并非最优 。具体来说当前的 MLLM例如 Qwen2.5-VL (Bai et al., 2025)、InternVL3 (Zhu et al., 2025)在输出端将视觉目标序列化为字符串 。这导致了两个主要问题 首先输出格式多种多样绝对坐标与归一化坐标、JSON 样式与自由格式正如图 2(a) 所示这增加了解析和结构化输出的难度 。其次数值坐标表示被映射为离散的文本 Token并且是逐个数字生成的例如“489” → “4, 8, 9” 。这破坏了数值的连续性并可能阻碍预测的准确性图 2(b) 。更重要的是虽然这种数值表示能有效地精确描述空间信息但它缺乏对图像理解任务至关重要的语义信息 。正如通过 Token 激活分析Li et al., 2025揭示并如图 2(b) 所示的那样这种固有的不匹配可能导致密集预测任务中出现重复或幻觉等错误Jiang et al., 2024b 。3.2 VISUAL REFERENCE TOKEN3.2 视觉参考 Token (Visual Reference Token)我们提出了Patch-as-Decodable-Token (PaDT)框架该框架引入了视觉参考 Token (VRTs)。这是一种统一的标记化方案将视觉补丁直接作为自回归生成过程中的可解码 Token 进行嵌入 。PaDT 通过三个关键组件扩展了传统的 MLLM1动态嵌入模块 (Dynamic Embedding Module)在每次前向传播中利用视觉补丁即特定的 VRTs增强文本词表码本从而生成多模态码本 。2PaDT 头部 (PaDT Head)结合多模态码本使 VRTs 在输入端可嵌入、在输出端可解码从而实现统一且自然的格式 。3轻量级 PaDT 解码器 (Lightweight PaDT Decoder)旨在将可变的 VRTs 转换为多样化的视觉表示如边界框和掩码从而支持检测、分割和地面化等下游任务 。这进一步增强了所提方法的稳健性和灵活性 。3.2.1 UNIFIED MULTI - MODAL FORMAT WITH VRTS核心挑战在于确保 VRTs 能被 LLM 解读即在输入空间可嵌入且在输出空间可解码 。先前的工作如 ClawMachine依赖于预训练的离散视觉标记器 。它将包含海量 Token 的整个码本插入 LLM 嵌入表并强迫 LLM 将其高级语义特征空间映射到代表低级图像补丁的 Token 上 。因此该方法受到以下限制(i) 固定数据集层级的码本扩展包含海量 Token 且忽略了补丁特定的线索如空间位置。(ii) 语义歧义由于缺乏高级语义来自不同物体的视觉相似补丁可能会被映射到同一个 Token 。这种联合设计允许 VRTs 作为输入进行嵌入并作为输出进行解码使模型能够直接在自回归序列中插入补丁级引用 。基于此我们提出了一种稳健的策略即使用放置在被检测物体上的几个而非全部VRTs 来表示该物体然后通过下文介绍的轻量级 PaDT 解码器 解码出边界框或掩码等细粒度表示 。实验证明该策略更加稳健且有效 。各视觉任务的模板示例见附录 A.2 。3.2.2 LIGHT - WEIGHT PADT DECODER3.2.3 TRAINING STRATEGY4 EXPERIMENT任务与数据集。我们在多种视觉感知与理解任务上对 PaDT 进行了评估 。具体而言我们考虑了(i) 在 RefCOCO、RefCOCO 和 RefCOCOg 上的指代词理解REC与指代词分割RES任务 (ii) COCO 2017 上的开放词汇检测任务 以及 (iii) 指代图像描述RIC为此我们通过视觉语言模型VLM监督对 COCO 进行重新标注构建了一个新的基准测试 。更多数据集详情见附录 A.1 。架构与训练细节。我们采用 Qwen2.5-VL 作为基础模型并使用 3B 和 7B 版本进行实验以评估可扩展性 。基于现有的数据集标注在每个训练步骤中我们从每个目标的候选区域中随机采样 $N_{vrt} 5$ 个视觉参考 Token以此构建地面真值GTMLLM 序列 。若分割掩码不可用则在边界框内采样 VRT 。地面真值 Token 模板见附录 A.2 。训练在拥有 8 个 96GB GPU 的单节点上进行每个 GPU 的批处理大小batch size为 16 。我们将学习率设定为 $2 \times 10^{-5}$并应用梯度检查点gradient checkpointing以及 bfloat16 混合精度以提高内存效率 。此外还采用了 FlashAttention-2 来加速注意力计算 。多任务可扩展性。跨任务的联合训练能够持续提升性能表明了强大的跨任务泛化能力 。为了评估多任务性能并分析性能如何随任务数量扩展我们在所有基准测试即 RefCOCO//g、COCO 和 RIC上共同训练 PaDT从而得到了名为 PaDT Pro 的增强版多任务变体 。与任务特定的 PaDT 模型不同PaDT Pro 仅需通过更改提示词即可在不同任务间无缝切换 。4.1 VISUAL PERCEPTION UNDERSTANDING TASKS指代表达理解 (Referring Expression Comprehension)。指代表达理解REC任务评估多模态大语言模型MLLM在给定自然语言描述的情况下对物体进行定位的能力若预测框与地面真值框的交并比IoU超过 50%则认为预测正确 。如表 1 所示PaDT 和 PaDT Pro 在 3B 和 7B 规模上均达到了最先进的性能 。特别是 PaDT Pro (3B) 在 RefCOCO 上获得了 96.0/95.5/95.0 的成绩在 RefCOCO 上获得了 91.8/94.8/88.4 的成绩在 RefCOCOg 上获得了 93.6/94.0 的成绩超越了所有先前的 MLLM 方法 。PaDT Pro (3B) 的总体平均得分达到 93.6而在 7B 模型上这一数字进一步提升至 94.5 。值得注意的是PaDT 和 PaDT Pro (3B) 均已超越了参数量大得多的 78B InternVL3 模型 。这些结果证明了视觉参考 Token 范式的有效性它显著对齐了文本语义与图像补丁从而提高了 MLLM 中物体定位的精度 。指代表达分割 (Referring Expression Segmentation)。与 REC 类似指代表达分割RES任务评估 MLLM 在给定自然语言描述的情况下对目标物体掩码进行分割的能力 。我们采用 cIoU 作为评估指标结果如表 2 所示 。与现有方法相比PaDT 和 PaDT Pro 均取得了最佳性能甚至优于 Seg-R1 和 Text4SegSAM 等利用强大的 SAM 分割模型的方法 。凭借将统一的视觉参考 Token 转化为分割掩码的轻量级 PaDT 解码器我们的模型始终优于先前的基准模型 。更多定性示例见附录 A.6 。开放词汇检测 (Open-vocabulary Detection)。这是一项基础视觉感知任务用于评估 MLLM 执行语义地面化semantic grounding的能力 。如表 3 所示大多数现有的 MLLM 在此任务上表现挣扎表现出较低的精确率和召回率 。例如在 COCO2017 验证集上Qwen2.5-VL (3B) 仅获得 13.7 mAPInternVL3 (8B) 仅达到 17.5 mAP 。我们的 PaDT 和 PaDT Pro 显著推进了该领域的最先进水平 。PaDT Pro (3B) 达到了 38.2 mAP而 7B 变体进一步提升至 39.0 mAP几乎是先前最佳方法性能的两倍 。这些收益突显了视觉参考 Token 在强化语义关联和物体定位方面的有效性 。指代图像描述 (Referring Image Captioning)。为了验证视觉理解和地面化能力我们在 RIC 数据集上进行了实验 。如表 4 所示PaDT 和 PaDT Pro (3B) 带来了强劲的提升达到 1.45 CIDEr、0.304 Meteor、0.501 ROUGE-L、0.467 BLEU-4以及领先的检测得分82.3% 的贪婪精确率 (GP) 和 45.1% 的贪婪召回率 (GR) 。7B 模型进一步扩展了性能其中 PaDT Pro (7B) 保持了具有竞争力的描述质量即 1.39 CIDEr同时实现了最佳的面向检测的得分即 82.3% GP45.8% GR 。这些结果表明PaDT 不仅能生成流畅的描述还能生成基于局部视觉内容的语义精确的描述 。4.2 ABLATION EXPERIMENTSPaDT 建议组件的消融研究。我们在表 5 中使用 3B 模型进行了详细的消融研究并得出以下观察结果 。i) 第一行不含 VRTs 的情况对应于在 Qwen2.5-VL 上进行的监督微调即直接预测边界框坐标 。通过整合 VRTs、稳健的 CE 损失和随机 VRTs 选择我们观察到指代理解REC检测任务有显著提升并开启了指代分割RES分割任务能力 。ii) 我们进一步注意到投影模块 $f_{vp}$ 和稳健的 CE 损失对于实现性能提升都是必不可少的 。iii) 在训练期间包含所有前景 VRTs 的替代方案甚至可能损害性能这可能是由于对高密度区域的偏置所致 。使用 SAM2-L 进行掩码细化的有效性。我们进一步分析了 PaDT 输出与分割基础模型 SAM2-L 在三种方案下的兼容性 。i) 给定 PaDT 生成的 VRTs我们提取其坐标作为 SAM2-L 的点提示词point prompts记作point。ii) 分别使用 PaDT 生成的边界框和掩码作为 SAM2-L 的提示词 。我们在表 6 中探索了不同的组合方案 。首先我们观察到使用点提示词未能提升 PaDT 的效果这是由于先验信息过于稀疏 。然而在 SAM 的帮助下边界框box和掩码mask提示词均有助于进一步改善结果 。结合多种提示词会产生更显著的提升 。图 5 中的可视化结果证实了这些发现 。结果表明虽然会增加额外的推理成本但借助专家基础模型可以进一步增强分割性能 。预训练与任务特定微调的有效性。为了评估 PaDT 框架的泛化能力和数据缩放特性我们在 Objects365 数据集上进行预训练随后在 COCO 数据集上进行微调 。如表 7 所示PaDT 表现出比 Qwen2.5-VL 基础模型更强的零样本zero-shot性能且其微调版本始终优于直接在特定任务数据上训练的效果 。5 CONCLUSION在这项工作中我们提出了Patch-as-Decodable Token (PaDT)这是一种统一的范式通过视觉参考 Token (VRTs)使多模态大语言模型MLLMs能够同时生成文本和视觉输出 。通过将 VRTs 动态嵌入到 LLM 的输出空间中PaDT 确保了预测在语义上的连贯性和视觉上的地面化grounded克服了以往基于码本的方法存在的效率低下和失配问题 。此外我们还引入了轻量级解码器和有效的训练策略以在 PaDT 框架内实现视觉感知和理解任务 。在检测、分割、地面化和图像描述任务上的广泛实验证明了其最先进的性能突显了直接预测视觉 Token 是一种通向通用多模态推理系统的有效且可扩展的范式 。伦理声明 (ETHICS STATEMENT)我们确认所有作者均已阅读并遵守 ICLR 道德规范 。我们的研究不涉及人类受试者、个人身份数据或敏感信息 。所使用的数据集均为公开可用并已适当引用 。我们已经考虑了包括公平性、隐私和安全在内的潜在风险并采取了措施来减轻任何可能的负面影响 。没有利益冲突或外部赞助影响这项工作 。我们承诺在整个研究过程中尊重研究诚信和法律合规性 。可复现性声明 (REPRODUCIBILITY STATEMENT)我们致力于确保研究结果的可复现性 。正文详细描述了我们提出的方法和实验设置包括所有的超参数、数据集和评估协议 。额外的结果和数据集详情包含在附录中 。我们还在附录中提供了构建指代图像描述RIC数据集的详细过程 。我们将发布所有实现代码和复现指南以进一步支持我们发现的可复现性 。A APPENDIXA.1 REFERRING IMAGE CAPTIONING (RIC) DATASETA.1.1 DATASET CONSTRUCTION图像描述Image captioning是评估多模态大语言模型MLLM视觉理解能力的一项基础基准任务。在传统设置中给定一张输入图像模型会生成一段纯文本描述来总结主要主体及其活动这种模型通常在平衡的大规模图文对上进行训练。然而此类描述对于物体级地面化object-level grounding提供的监督信息极少导致很难评估模型是否准确捕捉到了实体的空间位置。为了解决这一局限性我们对 COCO2017 数据集进行了重新标注增加了更细粒度的标注并提出了我们的指代性图像描述 (RIC) 数据集。具体而言我们利用 Qwen2.5-VL-72B提示词见下文将每张图像及其对应的框级标注一起输入模型指示模型生成丰富的描述并明确引用相应的边界框 IDbox IDs。生成的训练样本示例详见图 6。生成 RIC 数据集的提示词提示词 (Prompt):image请描述这张图片重点关注存在的各个主要对象实例。在描述中提到某个对象后立即在括号中附上其对应的实例 ID格式为(box_id: ID/)。你必须只使用下方列表提供的实例 ID。不要虚构或编造任何 ID。如果同一个对象有多个实例 ID请在同一对括号内列出所有 ID 并用逗号分隔。例如一名男子(box_id: ID/)正站在桌子(box_id: ID/)旁。可以看到两个烤箱(box_id: ID/, box_id: ID/)。 以下是图像中可选的实例id: ID格式: 类别名称, bbox: [x1, y1, x2, y2]200887, person, [389, 70, 498, 348]{列出当前查询图像内的所有标注信息}重要提示描述中只能使用上面列出的实例 ID。不要编造新 ID。生成一段流利的英文描述包含指定的物体及其 ID。你不需要包含列表中的所有实例因为它们是可选的只需描述图像的主要元素。描述字数不超过 100 字且不应包含任何与图像无关的信息。Qwen2.5-VL-72B: (示例)一段繁忙的厨房场景一个人(box_id: 200887/)正在水槽(box_id: 2196309/)附近忙碌。餐桌(box_id: 119568/)上放着各种烹饪用品包括一个碗(box_id: 713388/)和一个瓶子(box_id: 82445/)。背景中可以看到两个烤箱(box_id: 1125079/, box_id: 2139366/)。另一个人(box_id: 1218137/)部分出现在左侧。桌子上还有一个杯子(box_id: 1883614/)和一把刀(box_id: 693231/)。厨房配有悬挂的锅具和常用的工作区凸显了繁忙的烹饪环境。A.2 TEMPLATE EXAMPLE FOR EACH VISION TASK这里我们展示了 PaDT 框架中使用的交互模板涵盖了开放词汇检测、指代表达理解以及指代图像描述任务。这些提示词被设计得简洁高效使得 PaDT 在任务训练期间能够自然地交织文本 Token 和 VRT 预测。开放词汇检测任务 (Open Vocabulary Detection Task)用户 (USER):image请仔细检查图像并检测以下物体[{目标列表}]。助手 (ASSISTANT):在这张图像中有{数量}个 “{类别名}” (VRT_0VRT_1VRT_2VRT_3VRT_4,VRT_5VRT_6VRT_7VRT_8VRT_9, ...) 以及 ...指代表达理解 / 分割任务 (Referring Expression Comprehension / Segmentation Task)用户 (USER):image请仔细检查图像并检测这句话所描述的对象“{描述性句子}”。助手 (ASSISTANT):这句 “{描述性句子}” 指的是这张图像中的VRT_0VRT_1VRT_2VRT_3VRT_4。指代图像描述任务 (Referring Image Captioning Task)用户 (USER):image请描述这张图片。助手 (ASSISTANT):...{物体1}(VRT_0VRT_1VRT_2VRT_3VRT_4) ...{物体2}(VRT_5VRT_6VRT_7VRT_8VRT_9) ...A.3 PROMPT USED FOR COMPETING METHODS为了引导 MLLMs如 Qwen2.5-VL [Bai et al., 2025]、InternVL3 [Zhu et al., 2025] 以及 LLaVA 系列 [Liu et al., 2024c]在各项任务中预测边界框坐标我们在任务提示词后附加了针对边界框及格式的特定指令详情如下。开放词汇检测任务带有边界框及格式指令用户 (USER):image请仔细检查图像并检测以下物体[{目标列表}]。 以 JSON 格式输出每个检测目标的边界框bbox坐标。例如“json [{bbox_2d: [x1, y1, x2, y2], label: 目标名称}]”。如果图像中未检测到任何目标只需回复 None。指代表达理解 / 分割任务带有格式指令用户 (USER):image请仔细检查图像并检测这句话所描述的对象“{问题}”。以 JSON 格式输出最终答案。指代图像描述任务带有边界框指令用户 (USER):image请描述这张图片。你应该在句子中包含物体相应的边界框。例如“在这张图像中一只猫([x1, y1, x2, y2])正坐在木桌([x1, y1, x2, y2])上...”。A.4 THE FORMULA OF THE TASK - SPECIFIC LOSSES ON THE PADT DECODER OUTPUTA.5 ADDITIONAL ABLATION STUDYA.5.1 TOKEN ACTIVATION MAP ANALYSIS我们提供了额外的 Token 激活图TAM可视化结果如图 7所示。通过对比 Qwen2.5-VL 与 PaDT Pro 7B 模型可以发现相比逐位数字的坐标预测视觉参考 TokenVRTs与目标图像补丁之间建立了更强的关联。这些结果进一步凸显了视觉参考 Token 所实现的稳健语义对齐和精确物体定位。A.5.2 ABLATION STUDY OF OTHER USED LOSSESA.5.3 ABLATION STUDY OF THE NUMBER OF SELECTED VRT S PER TARGET我们分析了每个目标选择的视觉补丁visual patches数量对性能的影响。如表 9所示将补丁数量从 1 个增加到 5 个可以稳步提升所有数据集上的边界框准确率和掩码 cIoU。当每个目标选择 5 个补丁时获得最佳结果而进一步增加到 8 个补丁则会产生收益递减甚至负面影响。这表明适量的代表性补丁可以提供更丰富的表示而过多的补丁会引入噪声和冗余导致 PaDT 的训练不稳定。我们还研究了在训练期间使用所有前景补丁作为地面真值ground-truthVRTs 的情况。如图 8所示这种配置产生的结果最差。尽管输出的 VRTs 数量增加了但 PaDT 解码器的性能出现了明显的下降。我们将此归因于冗余这使得 PaDT 在推理阶段难以预测所有 VRTs以及补丁级特征的低分辨率当使用所有前景补丁时解码器被迫去解码琐碎且重叠的区域这阻碍了它学习准确的目标边界和掩码尤其是当推理阶段仅预测有限数量的 VRTs 时。因此选择适量且具有信息量的补丁证明比使用所有前景补丁进行训练更有效。A.6 QUALITATIVE EVALUATIONA.6.1 OPEN VOCABULARY DETECTION ON COCO2017 DATASET与代表性 MLLM 的对比。在本节中我们展示了在 COCO2017 数据集上进行开放词汇检测的定性结果对比了 PaDT 与代表性 MLLM。如图 9所示可以得出几个关键观察结果更高的召回率Higher recall。PaDT 能够一致地检测出场景中更大数量的物体展现出更强的召回率。这种提升源于其直接预测锚定在图像补丁上的视觉参考 TokenVRTs的能力从而实现了对相关物体更可靠的覆盖。在杂乱场景下的稳健性Robustness in cluttered scenes。竞争对手 MLLM 通常预测序列化的边界框坐标在具有许多重复或外观相似物体的场景中往往表现不佳。它们的预测可能会遗漏有效实例或塌缩到少数几个候选目标上而 PaDT 则保持了对多个目标的清晰引用。避免无效输出Avoiding invalid outputs。现有的 MLLM 偶尔会无法生成有效的检测结果在图 9中标记为“Error”。在这种情况下模型往往会生成重复的文本序列直到达到最大输出长度即 2048 个 Token。PaDT 通过直接将预测地面化grounding在视觉 Token 上而不是仅仅依赖于基于文本的序列化从而避免了这种失败模式。总体而言这些定性对比增强了 PaDT 的优势直接预测视觉 Token 不仅提高了召回率还增强了开放词汇检测的稳健性和稳定性。PaDT 在 REC/RES 和 OVD 任务上的结果可视化。在图 10中我们展示了由所提 PaDT 框架生成的广泛定性示例。对于指代理解REC和指代分割RESPaDT 首先解析用户查询并识别图像中的相应目标。如每个示例左上角的子图所示PaDT 生成 5 个视觉参考 TokenVRTs每个都与特定的图像补丁直接相关因此易于定位。这些 VRT 随后被输入 PaDT 解码器以生成相应的边界框和分割掩码。整个流程简单而有效。与逐字符生成坐标相比PaDT 所需的 Token 数量远少得多每个目标仅需 5 个 VRT同时提供了更强的物体语义和空间定位。在开放词汇检测OVD任务中也观察到了类似的现象。与 REC/RES 不同OVD 要求 PaDT 预测多个目标及其类别标签。在我们的回复模板中类别和 VRT 自然地交织在输出序列中实现了高效的多模态推理。这种训练策略加强了语义与图像补丁之间的对齐从而提高了检测任务的精度和召回率。A.6.2 REFERRING IMAGE CAPTIONING ON RIC DATASET与代表性 MLLM 的对比。在本节中我们展示了在指代图像描述RIC数据集上进行开放词汇检测的定性结果对比了 PaDT 与包括 InternVL3 8B 和 Qwen2.5-VL 7B 在内的代表性 MLLM。如图 11所示PaDT 在边界框准确率和物体召回率方面均表现出明显优势。图中提供了详细的定性对比进一步证明了利用视觉参考 Token 作为高层文本语义与底层物体定位之间桥梁的有效性。PaDT 在 RIC 任务上的结果可视化。我们进一步展示了由所提 PaDT 框架生成的定性示例。如图 12所示视觉参考 Token 在生成主体的同时自动产生展示了语义文本与图像补丁之间的自然交织。这种设计进一步增强了文本描述与视觉元素之间的物体级对齐从而加强了跨文本和图像模态的协同推理能力。

更多文章