Usage instructions: here
| Publish Date | Title | Code | Abstract |
|---|---|---|---|
| 2026-03-03 | Utonia: Toward One Encoder for All Point Clouds | link | 我们梦想着一个未来,所有领域中的点云能够汇聚起来,共同塑造一个造福所有领域的单一模型。为了实现这一目标,我们提出了Utonia,这是朝着训练一个单一的、自监督点Transformer编码器迈出的第一步,该编码器跨越遥感、室外LiDAR、室内RGB-D序列、以物体为中心的CAD模型以及从纯RGB视频中提取的点云等多样化领域。尽管它们具有不同的感知几何、密度和先验知识,Utonia仍能学习到一个在不同领域间迁移的一致表征空间。这种统一不仅提升了感知能力,还揭示了只有在领域联合训练时才会出现的引人入胜的涌现行为。除了感知,我们还观察到Utonia的表征也能有益于具身和多模态推理:将视觉-语言-动作策略条件化于Utonia特征可以改善机器人操作,而将其整合到视觉-语言模型中则能在空间推理方面取得收益。我们希望Utonia能够成为稀疏3D数据基础模型发展的一个里程碑,并支持AR/VR、机器人技术和自动驾驶等下游应用。 |
| 2026-03-03 | ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation | null | 实现自主多功能全身运动-操作仍然是使人形机器人具有实用性的核心障碍。然而,现有方法存在根本性限制:重定向数据通常稀缺或质量低下;方法难以扩展到大规模技能库;最重要的是,它们依赖于跟踪预定义运动参考,而非从感知和高层任务规范生成行为。为解决这些局限性,我们提出了ULTRA,这是一个包含两个关键组件的统一框架。首先,我们引入了一种物理驱动的神经重定向算法,能够将大规模动作捕捉数据转换为人形机器人本体,同时保持接触丰富交互的物理合理性。其次,我们学习了一个统一的多模态控制器,它在从精确动作捕捉状态到嘈杂的自我中心视觉输入等多种感知条件下,支持密集参考和稀疏任务规范。我们将通用跟踪策略提炼到该控制器中,将运动技能压缩到一个紧凑的潜在空间,并应用强化学习微调来扩展覆盖范围并提高在分布外场景下的鲁棒性。这使得无需测试时参考运动,即可从稀疏意图生成协调的全身行为。我们在仿真环境和真实宇树G1人形机器人上评估了ULTRA。结果表明,ULTRA能够泛化到从自我中心感知实现自主、目标导向的全身运动-操作,并且始终优于技能有限的纯跟踪基线方法。 |
| 2026-03-03 | Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping | link | The ability to conduct and learn from interaction and experience is a central challenge in robotics, offering a scalable alternative to labor-intensive human demonstrations. However, realizing such "play" requires (1) a policy robust to diverse, potentially out-of-distribution environment states, and (2) a procedure that continuously produces useful robot experience. To address these challenges, we introduce Tether, a method for autonomous functional play involving structured, task-directed interactions. First, we design a novel open-loop policy that warps actions from a small set of source demonstrations (<=10) by anchoring them to semantic keypoint correspondences in the target scene. We show that this design is extremely data-efficient and robust even under significant spatial and semantic variations. Second, we deploy this policy for autonomous functional play in the real world via a continuous cycle of task selection, execution, evaluation, and improvement, guided by the visual understanding capabilities of vision-language models. This procedure generates diverse, high-quality datasets with minimal human intervention. In a household-like multi-object setup, our method is the first to perform many hours of autonomous multi-task play in the real world starting from only a handful of demonstrations. This produces a stream of data that consistently improves the performance of closed-loop imitation policies over time, ultimately yielding over 1000 expert-level trajectories and training policies competitive with those learned from human-collected demonstrations. |
| 2026-03-03 | Beyond Language Modeling: An Exploration of Multimodal Pretraining | link | 视觉世界为推动基础模型超越语言提供了一个关键方向。尽管对此方向的兴趣日益增长,但原生多模态模型的设计空间仍不透明。我们通过受控的、从零开始的预训练实验提供了经验清晰性,隔离了影响多模态预训练的因素,且不受语言预训练的干扰。我们采用Transfusion框架,使用下一个token预测处理语言,使用扩散模型处理视觉,在包括文本、视频、图像-文本对甚至动作条件视频在内的多样化数据上进行训练。我们的实验得出了四个关键见解:(i) 表示自编码器 (RAE) 在视觉理解和生成方面均表现出色,提供了一种最佳的统一视觉表示;(ii) 视觉和语言数据是互补的,并为下游能力带来协同效应;(iii) 统一的多模态预训练自然地引向世界建模,其能力从通用训练中涌现;(iv) 专家混合模型 (MoE) 实现了高效且有效的多模态扩展,同时自然地诱导了模态专业化。通过IsoFLOP分析,我们计算了两种模态的扩展定律,并揭示了扩展不对称性:视觉比语言明显更依赖数据。我们证明MoE架构通过提供语言所需的高模型容量,同时适应视觉的数据密集型特性,从而协调了这种扩展不对称性,为真正统一的多模态模型铺平了道路。 |
| 2026-03-03 | UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? | null | 统一多模态模型近期展现出强大的生成能力,但生成是否以及何时能提升理解能力仍不明确。现有基准缺乏对生成有助于理解的特定任务的系统性探究。为此,我们引入了UniG2U-Bench,这是一个全面基准,将生成到理解(G2U)评估分为7个范畴和30个子任务,这些任务需要不同程度的隐式或显式视觉变换。对30多个模型进行的大量评估揭示了三个核心发现:1) 统一模型通常不如其基础视觉-语言模型(VLM),并且先生成后回答(GtA)推理相对于直接推理通常会降低性能。2) 在空间智能、视觉错觉或多轮推理子任务中出现了持续性提升,其中增强的空间和形状感知以及多步中间图像状态被证明是有益的。3) 具有相似推理结构的任务和共享架构的模型表现出相关行为,这表明生成-理解耦合在任务、预训练数据和模型架构上引入了类别一致的归纳偏置。这些发现强调了需要更多样化的训练数据和新范式来充分释放统一多模态建模的潜力。 |
| 2026-03-03 | COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design | null | 地球观测应用越来越依赖于来自多种传感器的数据,包括光学、雷达、高程和土地覆盖产品。这些模态之间的关系对于数据集成至关重要,但本质上是非单射的:相同的条件信息可以对应多个物理上合理的观测。因此,这种条件映射应该被参数化为数据分布。因此,确定性模型倾向于坍缩到条件均值,并且无法表示数据补全和跨传感器转换等任务所需的不确定性和变异性。我们引入了COP-GEN,这是一种多模态潜在扩散Transformer,用于以其原始空间分辨率对异构地球观测模态的联合分布进行建模。通过将跨模态映射参数化为条件分布,COP-GEN实现了灵活的任意到任意条件生成,包括零样本模态转换、光谱波段填充以及在部分或缺失输入下的生成,而无需任务特定的再训练。在大型全球多模态数据集上的实验表明,COP-GEN生成了多样化且物理一致的结果,同时在光学、雷达和高程模态之间保持了强大的峰值保真度。定性和定量分析表明,该模型捕获了有意义的跨模态结构,并随着条件信息的增加系统地调整其输出不确定性。这些结果强调了随机生成建模对于地球观测的实际重要性,并推动了超越单参考、点式指标的评估协议。 |
| 2026-03-03 | ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments | null | Universal embodied intelligence demands robust generalization across heterogeneous embodiments, such as autonomous driving, robotics, and unmanned aerial vehicles (UAVs). However, existing embodied brain in training a unified model over diverse embodiments frequently triggers long-tail data, gradient interference, and catastrophic forgetting, making it notoriously difficult to balance universal generalization with domain-specific proficiency. In this report, we introduce ACE-Brain-0, a generalist foundation brain that unifies spatial reasoning, autonomous driving, and embodied manipulation within a single multimodal large language model~(MLLM). Our key insight is that spatial intelligence serves as a universal scaffold across diverse physical embodiments: although vehicles, robots, and UAVs differ drastically in morphology, they share a common need for modeling 3D mental space, making spatial cognition a natural, domain-agnostic foundation for cross-embodiment transfer. Building on this insight, we propose the Scaffold-Specialize-Reconcile~(SSR) paradigm, which first establishes a shared spatial foundation, then cultivates domain-specialized experts, and finally harmonizes them through data-free model merging. Furthermore, we adopt Group Relative Policy Optimization~(GRPO) to strengthen the model's comprehensive capability. Extensive experiments demonstrate that ACE-Brain-0 achieves competitive and even state-of-the-art performance across 24 spatial and embodiment-related benchmarks. |
| 2026-03-03 | Specificity-aware reinforcement learning for fine-grained open-world classification | link | 在开放世界设置下(即没有预定义的标签集)对细粒度视觉概念进行分类,要求模型既准确又具体。最近的推理大型多模态模型(LMM)展现出强大的视觉理解能力,但在执行细粒度图像分类时,往往会产生过于宽泛的预测。我们的初步分析表明,模型确实拥有内在的细粒度领域知识。然而,在不损害正确预测(正确性)的前提下,促进更具体的预测(特异性)仍然是一个非平凡且未被充分研究的挑战。在这项工作中,我们研究如何引导推理LMMs生成既正确又具体的预测。我们提出了一种新颖的特异性感知强化学习框架SpeciaRL,用于在开放世界设置下对推理LMMs进行细粒度图像分类的微调。SpeciaRL引入了一种动态的、基于验证器的奖励信号,该信号锚定于在线推演中的最佳预测,从而在尊重模型能力以防止错误预测的同时,促进特异性。我们的域外实验表明,SpeciaRL在广泛的细粒度基准测试中,在正确性和特异性之间取得了最佳权衡,超越了现有方法,并推动了开放世界细粒度图像分类的进展。代码和模型已公开发布于https://github.com/s-angheben/SpeciaRL。 |
| 2026-03-03 | MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization | null | Omni-modal large language models (omni LLMs) have recently achieved strong performance across audiovisual understanding tasks, yet they remain highly susceptible to cross-modal hallucinations arising from spurious correlations and dominant language priors. In this work, we propose Modality-Decoupled Direct Preference Optimization (MoD-DPO), a simple and effective framework for improving modality grounding in omni LLMs. MoD-DPO introduces modality-aware regularization terms that explicitly enforce invariance to corruptions in irrelevant modalities and sensitivity to perturbations in relevant modalities, thereby reducing unintended cross-modal interactions. To further mitigate over-reliance on textual priors, we incorporate a language-prior debiasing penalty that discourages hallucination-prone text-only responses. Extensive experiments across multiple audiovisual hallucination benchmarks demonstrate that MoD-DPO consistently improves perception accuracy and hallucination resistance, outperforming previous preference optimization baselines under similar training budgets. Our findings underscore the importance of modality-faithful alignment and demonstrate a scalable path toward more reliable and resilient multimodal foundation models. |
| 2026-03-03 | SpatialText: A Pure-Text Cognitive Benchmark for Spatial Understanding in Large Language Models | null | Genuine spatial reasoning relies on the capacity to construct and manipulate coherent internal spatial representations, often conceptualized as mental models, rather than merely processing surface linguistic associations. While large language models exhibit advanced capabilities across various domains, existing benchmarks fail to isolate this intrinsic spatial cognition from statistical language heuristics. Furthermore, multimodal evaluations frequently conflate genuine spatial reasoning with visual perception. To systematically investigate whether models construct flexible spatial mental models, we introduce SpatialText, a theory-driven diagnostic framework. Rather than functioning simply as a dataset, SpatialText isolates text-based spatial reasoning through a dual-source methodology. It integrates human-annotated descriptions of real 3D indoor environments, which capture natural ambiguities, perspective shifts, and functional relations, with code-generated, logically precise scenes designed to probe formal spatial deduction and epistemic boundaries. Systematic evaluation across state-of-the-art models reveals fundamental representational limitations. Although models demonstrate proficiency in retrieving explicit spatial facts and operating within global, allocentric coordinate systems, they exhibit critical failures in egocentric perspective transformation and local reference frame reasoning. These systematic errors provide strong evidence that current models rely heavily on linguistic co-occurrence heuristics rather than constructing coherent, verifiable internal spatial representations. SpatialText thus serves as a rigorous instrument for diagnosing the cognitive boundaries of artificial spatial intelligence. |
| 2026-02-20 | CapNav: Benchmarking Vision Language Models on Capability-conditioned Indoor Navigation | null | 视觉语言模型(VLM)在视觉语言导航(VLN)方面取得了显著进展,为导航决策提供了新的可能性,这既能惠及机器人平台,也能惠及人类用户。然而,现实世界中的导航本质上受限于智能体的移动能力。例如,扫地机器人无法通过楼梯,而四足机器人则可以。我们引入了能力条件导航(CapNav),这是一个旨在评估VLM在给定智能体特定物理和操作能力的情况下,在复杂室内空间中导航表现的基准。CapNav定义了五种具有代表性的人类和机器人智能体,每种智能体都通过其物理尺寸、移动能力和环境交互能力进行描述。CapNav提供了45个真实世界的室内场景、473个导航任务和2365个问答对,以测试VLM是否能根据智能体的能力穿越室内环境。我们评估了13个现代VLM,发现随着移动能力限制的收紧,当前VLM的导航性能急剧下降,并且即使是最先进的模型也难以应对需要进行空间维度推理的障碍类型。最后,我们讨论了能力感知导航的启示以及在未来VLM中推进具身空间推理的机遇。该基准可在https://github.com/makeabilitylab/CapNav获取。 |
| 2026-02-20 | Zero-shot Interactive Perception | null | 交互式感知 (IP) 使机器人能够通过与物体进行物理交互并改变环境状态,提取工作空间中的隐藏信息并执行操作计划——这对于解决复杂、部分可观测场景中的遮挡和模糊性至关重要。我们提出零样本交互式感知 (ZS-IP),这是一种新颖的框架,它将多策略操作(推和抓取)与记忆驱动的视觉语言模型 (VLM) 相结合,以指导机器人交互并解决语义查询。ZS-IP集成了三个关键组件:(1) 增强观测 (EO) 模块,它通过传统关键点和我们提出的推线(一种专门为推操作定制的新颖2D视觉增强)来增强VLM的视觉感知;(2) 记忆引导动作模块,通过上下文查找强化语义推理;以及 (3) 机器人控制器,它根据VLM输出执行推、拉或抓取。与针对抓取放置优化的基于网格的增强不同,推线捕捉了富接触动作的感知功能,大幅提升了推操作的性能。我们在7自由度Franka Panda机械臂上,跨越具有不同遮挡和任务复杂性的多样场景,评估了ZS-IP。我们的实验表明,ZS-IP优于被动式和基于视点的感知技术,例如基于标记的视觉提示 (MOKA),特别是在推操作中,同时保持了非目标元素的完整性。 |
| 2026-02-20 | Context-Aware Mapping of 2D Drawing Annotations to 3D CAD Features Using LLM-Assisted Reasoning for Manufacturing Automation | null | 制造自动化在工艺规划、检测规划和数字主线集成中,依赖于一个统一的规范,该规范将三维CAD模型的几何特征与相应二维工程图上承载的几何尺寸与公差 (GD&T) 标注、基准定义和表面要求绑定起来。尽管基于模型的定义 (MBD) 允许将此类规范直接嵌入三维模型中,但在汽车、航空航天、造船和重型机械行业中,二维图纸仍然是制造意图的主要载体。由于上下文模糊性、重复特征模式以及对透明且可追溯决策的需求,将图纸标注正确地关联到相应的三维特征非常困难。本文提出了一种确定性优先、上下文感知的框架,该框架将二维图纸实体映射到三维CAD特征,以生成统一的制造规范。图纸标注首先经过语义增强,然后使用可解释的度量标准根据候选特征进行评分,该度量标准结合了类型兼容性、考虑公差的尺寸一致性和保守的上下文一致性,以及工程领域启发式规则。当确定性评分无法解决歧义时,系统会升级到多模态和受约束的大型语言模型推理,随后进行单次人在回路 (HITL) 审查步骤。在20对真实CAD-图纸对上的实验结果显示,平均精确率为83.67%,召回率为90.46%,F1分数为86.29%。消融研究表明,每个流水线组件都对整体准确性有所贡献,并且完整系统优于所有简化变体。通过优先考虑确定性规则、清晰的决策追踪以及保留未解决案例供人工审查,该框架为真实工业环境中的下游制造自动化提供了实用基础。 |
| 2026-02-20 | Diffusing to Coordinate: Efficient Online Multi-Agent Diffusion Policies | null | 在线多智能体强化学习(MARL)是实现高效智能体协调的重要框架。至关重要的是,增强策略表达能力对于实现卓越性能至关重要。基于扩散的生成模型在图像生成和离线环境中已展现出卓越的表达能力和多模态表示能力,因此能够很好地满足这一需求。然而,它们在在线MARL中的潜力仍未得到充分探索。一个主要障碍是,扩散模型难以处理的似然会阻碍基于熵的探索和协调。为了解决这一挑战,我们提出了首批使用扩散策略的在线离策略MARL框架(OMAD),用于协调智能体。我们的主要创新是一个松弛的策略目标,它最大化缩放联合熵,从而在无需依赖可处理似然的情况下促进有效探索。作为补充,在集中式训练与分布式执行(CTDE)范式下,我们采用联合分布价值函数来优化去中心化扩散策略。它利用可处理的熵增强目标来指导扩散策略的同步更新,从而确保稳定的协调。在MPE和MAMuJoCo上的广泛评估确立了我们的方法在10项不同任务中达到了新的最先进水平,展示了采样效率2.5倍至5倍的显著提升。 |
| 2026-02-20 | DEIG: Detail-Enhanced Instance Generation with Fine-Grained Semantic Control | link | Multi-Instance Generation has advanced significantly in spatial placement and attribute binding. However, existing approaches still face challenges in fine-grained semantic understanding, particularly when dealing with complex textual descriptions. To overcome these limitations, we propose DEIG, a novel framework for fine-grained and controllable multi-instance generation. DEIG integrates an Instance Detail Extractor (IDE) that transforms text encoder embeddings into compact, instance-aware representations, and a Detail Fusion Module (DFM) that applies instance-based masked attention to prevent attribute leakage across instances. These components enable DEIG to generate visually coherent multi-instance scenes that precisely match rich, localized textual descriptions. To support fine-grained supervision, we construct a high-quality dataset with detailed, compositional instance captions generated by VLMs. We also introduce DEIG-Bench, a new benchmark with region-level annotations and multi-attribute prompts for both humans and objects. Experiments demonstrate that DEIG consistently outperforms existing approaches across multiple benchmarks in spatial consistency, semantic accuracy, and compositional generalization. Moreover, DEIG functions as a plug-and-play module, making it easily integrable into standard diffusion-based pipelines. |
| 2026-02-20 | Simplifying Outcomes of Language Model Component Analyses with ELIA | null | 虽然机械可解释性已开发出强大的工具来分析大语言模型(LLMs)的内部工作原理,但其复杂性造成了可及性鸿沟,限制了其仅供专家使用。我们通过设计、构建和评估ELIA(可解释语言可解释性分析)来应对这一挑战,ELIA是一个交互式网络应用程序,它为更广泛的受众简化了各种语言模型组件分析的结果。该系统集成了三种关键技术——归因分析、函数向量分析和电路追踪——并引入了一种新颖的方法:使用视觉语言模型自动为这些方法生成的复杂可视化生成自然语言解释(NLEs)。通过一项混合方法用户研究,我们对这种方法的有效性进行了实证验证,该研究揭示了用户明显偏好交互式、可探索的界面,而非更简单、静态的可视化。一个关键发现是,AI驱动的解释有助于弥合非专家的知识鸿沟;统计分析显示,用户的LLM先验经验与其理解得分之间没有显著相关性,这表明该系统降低了不同经验水平用户的理解障碍。我们得出结论,AI系统确实可以简化复杂的模型分析,但其真正潜力只有在与周到、以用户为中心的设计相结合时才能释放,这种设计优先考虑交互性、具体性和叙事指导。 |
| 2026-02-20 | On the Adversarial Robustness of Discrete Image Tokenizers | null | Discrete image tokenizers encode visual inputs as sequences of tokens from a finite vocabulary and are gaining popularity in multimodal systems, including encoder-only, encoder-decoder, and decoder-only models. However, unlike CLIP encoders, their vulnerability to adversarial attacks has not been explored. Ours being the first work studying this topic, we first formulate attacks that aim to perturb the features extracted by discrete tokenizers, and thus change the extracted tokens. These attacks are computationally efficient, application-agnostic, and effective across classification, multimodal retrieval, and captioning tasks. Second, to defend against this vulnerability, inspired by recent work on robust CLIP encoders, we fine-tune popular tokenizers with unsupervised adversarial training, keeping all other components frozen. While unsupervised and task-agnostic, our approach significantly improves robustness to both unsupervised and end-to-end supervised attacks and generalizes well to unseen tasks and data. Unlike supervised adversarial training, our approach can leverage unlabeled images, making it more versatile. Overall, our work highlights the critical role of tokenizer robustness in downstream tasks and presents an important step in the development of safe multimodal foundation models. |
| 2026-02-20 | BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards | null | 短视频平台现在承载着大量多模态广告,其欺骗性视觉内容、语音和字幕需要比社区安全过滤器更细粒度、策略驱动的审核。我们提出了BLM-Guard,一个用于商业广告的内容审核框架,它融合了思维链推理、基于规则的策略原则和批评者引导的奖励。一个规则驱动的ICoT数据合成管道通过生成结构化场景描述、推理链和标签来启动训练,从而降低了标注成本。强化学习随后使用一个平衡因果连贯性和策略遵循性的复合奖励来改进模型。一种多任务架构建模了模态内操纵(例如,夸大图像)和跨模态不匹配(例如,字幕-语音漂移),提升了鲁棒性。在真实短视频广告上的实验表明,BLM-Guard在准确性、一致性和泛化能力方面超越了强大的基线。 |
| 2026-02-20 | FENCE: A Financial and Multimodal Jailbreak Detection Dataset | null | Jailbreaking poses a significant risk to the deployment of Large Language Models (LLMs) and Vision Language Models (VLMs). VLMs are particularly vulnerable because they process both text and images, creating broader attack surfaces. However, available resources for jailbreak detection are scarce, particularly in finance. To address this gap, we present FENCE, a bilingual (Korean-English) multimodal dataset for training and evaluating jailbreak detectors in financial applications. FENCE emphasizes domain realism through finance-relevant queries paired with image-grounded threats. Experiments with commercial and open-source VLMs reveal consistent vulnerabilities, with GPT-4o showing measurable attack success rates and open-source models displaying greater exposure. A baseline detector trained on FENCE achieves 99 percent in-distribution accuracy and maintains strong performance on external benchmarks, underscoring the dataset's robustness for training reliable detection models. FENCE provides a focused resource for advancing multimodal jailbreak detection in finance and for supporting safer, more reliable AI systems in sensitive domains. Warning: This paper includes example data that may be offensive. |
| 2026-02-20 | A contour for the entanglement negativity of bosonic Gaussian states | null | We construct a contour function for the logarithmic negativity and the logarithm of the moments of the partial transpose of the reduced density matrix for multimode bosonic Gaussian states of a free lattice model. In one spatial dimension, numerical results are obtained for harmonic chains either in the ground state or at finite temperature, by considering, respectively, either a subsystem made by two adjacent or disjoint blocks on the line or a bipartition of the circle. The contour function of the logarithmic negativity diverges only at the entangling points, while the contour function for the logarithm of the moments of the partial transpose is divergent also at the boundary of the bipartite subsystem, as functions of the position. In a two-dimensional conformal field theory, analytic expressions that describe these divergencies are discussed. In one spatial dimension, we explore the partial derivative of the logarithmic negativity of two adjacent intervals with respect to the logarithm of the harmonic ratio of their lengths while their ratio and the other parameters are kept fixed. Considering the ground state of the harmonic chain on the line and in the massive regime, we report numerical results showing that this quantity displays a monotonically decreasing behaviour. |
| 2026-01-08 | Generate, Transfer, Adapt: Learning Functional Dexterous Grasping from a Single Human Demonstration | null | 灵巧机械手的功能性抓取是实现工具使用和复杂操作的关键能力,然而,进展一直受限于两个持续存在的瓶颈:大规模数据集的稀缺,以及学习模型中缺乏语义和几何推理的集成。在这项工作中,我们提出了 CorDex,这是一个能够从仅由单次人类演示生成的合成数据中,鲁棒地学习新颖物体灵巧功能性抓取的框架。我们方法的核心是一个基于对应关系的数据引擎,它在仿真中生成多样化、高质量的训练数据。基于人类演示,我们的数据引擎生成同一类别的多样化物体实例,通过对应关系估计将专家抓取转移到生成的物体上,并通过优化调整抓取。基于生成的数据,我们引入了一个集成视觉和几何信息的多模态预测网络。通过设计一个局部-全局融合模块和一个重要性感知采样机制,我们实现了对灵巧功能性抓取的鲁棒且计算高效的预测。通过对各种物体类别进行广泛实验,我们证明了 CorDex 对未见过的物体实例具有良好的泛化能力,并显著优于最先进的基线方法。 |
| 2026-01-08 | Mechanisms of Prompt-Induced Hallucination in Vision-Language Models | null | 大型视觉-语言模型(VLM)能力强大,但通常会因倾向于文本提示而非视觉证据而产生幻觉。我们在一项受控的物体计数场景中研究了这种失败模式,其中提示夸大了图像中物体的数量(例如,当只有三朵睡莲时,却要求模型描述四朵)。在物体数量较少时,模型通常会纠正这种过高估计,但随着物体数量的增加,它们越来越倾向于遵循提示,无论存在何种差异。通过对三种VLM进行机制分析,我们识别出了一小组注意力头,它们的消融在无需额外训练的情况下,显著减少了至少40%的提示诱导幻觉(PIH)。在不同模型中,PIH头以模型特定的方式介导提示复制。我们描述了这些差异,并表明PIH消融增加了对视觉证据的纠正。我们的发现为驱动提示诱导幻觉的内部机制提供了见解,揭示了这些行为在不同模型中实现方式的特定差异。 |
| 2026-01-08 | Local Multimodal Dynamics in Mixed Ionic-Electronic Conductors and Their Fingerprints in Organic Electrochemical Transistor Operation | null | 混合离子电子导体中存在移动离子、电子电荷和聚合物基质之间紧密耦合的相互作用,从而产生涵盖电学、力学和形态学转变的复杂多模式响应。这些材料是有机电化学晶体管(OECT)的基础,OECT将此类相互作用转化为低压信号放大和传感,应用于生物电子学、神经形态计算和存储。尽管它们发挥着核心作用,OECT的电流-电压传输特性通常被现象学地处理,因为局部多模式动力学及其与全局器件响应的联系仍未解决。在本文中,我们揭示传输曲线编码了一系列空间局域的电化学转变,每个转变都与电导率、刚度和形态的独特变化相关联,从而从根本上将其重新定义为器件内部状态的空间分辨指纹。利用自动原位多模式液相扫描介电显微镜,我们直接映射了这些动力学,并识别出控制源极、沟道和漏极之间相互作用的区域特定电化学阈值。我们发现局部尖端-样品静电力是混合导体中耦合多模式动力学的一种显著的机制可观测量。一个基于物理原理的模型将其与通用材料、界面和几何参数联系起来,从而实现了机制解释和预测性见解。我们的工作为探测和理解离子-电子耦合系统中的混合传导提供了一个新框架。 |
| 2026-01-08 | VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice | link | 思维链 (CoT) 推理已成为多模态大语言模型在视频理解任务上的强大工具。然而,其必要性以及相较于直接回答的优势仍未得到充分探索。在本文中,我们首先证明,对于经过强化学习训练的视频模型,直接回答通常能与CoT性能持平甚至超越,尽管CoT会生成逐步分析但计算成本更高。受此启发,我们提出VideoAuto-R1,这是一个采用“按需推理”策略的视频理解框架。在训练阶段,我们的方法遵循“一次思考,两次回答”范式:模型首先生成一个初始答案,然后进行推理,最后输出一个审阅后的答案。两个答案都通过可验证的奖励受到监督。在推理阶段,模型利用初始答案的置信度分数来决定是否进行推理。在视频问答和定位基准测试中,VideoAuto-R1实现了最先进的准确性,同时显著提高了效率,将平均响应长度缩短了约3.3倍,例如从149个词元减少到仅44个词元。此外,我们观察到在感知导向型任务上思维模式的激活率较低,但在推理密集型任务上激活率较高。这表明显式的基于语言的推理通常有益但并非总是必需的。 |
| 2026-01-08 | CoV: Chain-of-View Prompting for Spatial Reasoning | link | 3D环境中的具身问答(EQA)通常需要收集分布在多个视角且部分遮挡的上下文。然而,大多数最新的视觉-语言模型(VLM)受限于固定且有限的输入视角集,这限制了它们在推理时获取问题相关上下文的能力,并阻碍了复杂的空间推理。我们提出了视角链(CoV)提示,这是一种无需训练的测试时推理框架,它通过从粗到精的探索过程将VLM转变为主动视角推理器。CoV首先利用一个视角选择代理来过滤冗余帧并识别与问题对齐的锚定视角。然后,它通过将迭代推理与离散相机动作交织进行,执行细粒度视角调整,从底层3D场景表示中获取新的观察结果,直到收集到足够的上下文或达到步数预算。我们在OpenEQA上对四种主流VLM评估了CoV,结果LLM-Match平均提高了+11.56%,在Qwen3-VL-Flash上最大提升达到+13.62%。CoV还展现了测试时扩展性:增加最小动作预算可带来额外+2.51%的平均提升,在Gemini-2.5-Flash上最高达到+3.73%。在ScanQA和SQA3D上,CoV也展现出强大的性能(例如,在ScanQA上达到116 CIDEr / 31.9 EM@1,在SQA3D上达到51.1 EM@1)。总的来说,这些结果表明,与问题对齐的视角选择结合开放视角搜索是一种有效且模型无关的策略,可以在无需额外训练的情况下改进3D EQA中的空间推理能力。 |
| 2026-01-08 | Vision-Language Introspection: Mitigating Overconfident Hallucinations in MLLMs via Interpretable Bi-Causal Steering | null | 物体幻觉严重损害多模态大型语言模型的可靠性,通常源于认知内省的根本性失败,即模型盲目信任语言先验而忽视特定的视觉证据。现有缓解措施仍然有限:对比解码方法仅限于表面操作,未能纠正内部语义错位;而当前的潜在引导方法依赖静态向量,缺乏实例特异性精度。我们引入了视觉-语言内省 (VLI),这是一个免训练的推理框架,它模拟了一个元认知自我纠正过程。VLI 首先执行属性内省,通过概率冲突检测诊断幻觉风险并定位因果视觉锚点。接着,它采用可解释的双因果引导来主动调节推理过程,动态地将视觉证据与背景噪声隔离,并通过自适应校准消除盲目自信。VLI 在先进模型上实现了最先进的性能,在 MMHal-Bench 上将物体幻觉率降低了12.67%,并在 POPE 上将准确率提高了5.8%。 |
| 2026-01-08 | VERSE: Visual Embedding Reduction and Space Exploration. Clustering-Guided Insights for Training Data Enhancement in Visually-Rich Document Understanding | null | 本文介绍VERSE,一种通过探索视觉-语言模型(VLM)的视觉嵌入空间来分析和改进应用于富视觉文档理解(VrDU)的VLM的方法。VERSE能够实现潜在表示的可视化,支持模型可行性评估。它还有助于识别问题区域,并指导合成数据的生成,以提升这些簇的性能。我们通过在合成的MERIT数据集上进行训练,并在其真实世界对应数据集MERIT Secret上进行评估来验证该方法。结果表明,VERSE有助于揭示与易出错簇相关的视觉特征,并且用包含这些特征的样本进行再训练大幅提升了F1性能而不损害泛化能力。此外,我们证明Donut和Idefics2等本地部署模型,经过VERSE优化后,能够匹配甚至超越GPT-4和Pixtral等软件即服务(SaaS)解决方案的性能。 |
| 2026-01-08 | Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing | null | 上下文图像生成与编辑(ICGE)使用户能够通过交错的图像-文本提示来指定视觉概念,这要求模型精确理解并忠实执行用户意图。尽管最近的统一多模态模型展现出有前景的理解能力,但这些优势往往未能有效地迁移到图像生成中。我们引入了Re-Align,这是一个统一的框架,通过结构化推理引导的对齐来弥合理解与生成之间的鸿沟。其核心是上下文思维链(IC-CoT),这是一种结构化推理范式,它解耦了语义指导和参考关联,从而提供清晰的文本目标并减轻了参考图像之间的混淆。此外,Re-Align引入了一种有效的强化学习(RL)训练方案,该方案利用替代奖励来衡量结构化推理文本与生成图像之间的对齐程度,从而提高了模型在ICGE任务上的整体性能。大量实验验证了Re-Align在模型规模和资源相当的情况下,在上下文图像生成和编辑任务上均优于竞争方法。 |
| 2026-01-08 | Milestones over Outcome: Unlocking Geometric Reasoning with Sub-Goal Verifiable Reward | null | 多模态大语言模型(MLLMs)在复杂的几何推理方面面临困难,这主要是因为“黑箱”式基于结果的监督无法区分侥幸猜测和严谨推导。为解决此问题,我们引入了一种范式转变,转向子目标层面的评估和学习。我们首先构建了GeoGoal,这是一个通过严谨的正式验证数据引擎合成的基准,它将抽象证明转化为可验证的数值子目标。这种结构揭示了推理质量和结果准确性之间的一个关键分歧。借鉴于此,我们提出了子目标可验证奖励(SGVR)框架,该框架用基于骨架率的密集奖励取代了稀疏信号。实验表明,SGVR不仅提升了几何性能(+9.7%),而且表现出强大的泛化能力,将增益转移到通用数学(+8.0%)和其他通用推理任务(+2.8%),从而证明了其在不同领域中的广泛适用性。 |
| 2026-01-08 | From Understanding to Engagement: Personalized pharmacy Video Clips via Vision Language Models (VLMs) | null | 视觉语言模型(VLM)通过实现智能、可扩展和自动化的多模态内容处理,有望彻底改变制药行业的数字化转型。传统的异构数据模态(文本、图像、视频、音频和网页链接)手动标注容易出现不一致性、质量下降和内容利用效率低下。庞大的长视频和音频数据量(例如,长时间的临床试验访谈和教育研讨会)进一步加剧了这些挑战。在本文中,我们介绍了一个领域适应的视频到视频片段生成框架,该框架集成了音频语言模型(ALM)和视觉语言模型(VLM)以生成精彩片段。我们的贡献有三方面:(i) 一种带有淡入/淡出和时间戳标准化的可复现剪切与合并算法,确保平滑过渡和音视频对齐;(ii) 一种基于角色定义和提示注入的个性化机制,用于定制输出(营销、培训、监管);(iii) 一种平衡了ALM/VLM增强处理的成本高效端到端(e2e)流水线策略。在Video MME基准(900个)和我们涵盖14个疾病领域的16,159个制药视频专有数据集上的评估表明,实现了3到4倍的加速、4倍的成本降低和具有竞争力的片段质量。除了效率提升,我们还报告称,与最先进的VLM基线(例如,Gemini 2.5 Pro)相比,我们的方法提升了片段连贯性得分(0.348)和信息量得分(0.721),突出了透明、自定义提取和支持合规的生命科学视频摘要的潜力。 |
| 2026-01-06 | A Versatile Multimodal Agent for Multimedia Content Generation | link | 随着人工智能生成内容 (AIGC) 技术的进步,越来越多的生成模型正在彻底改变视频编辑、音乐生成乃至电影制作等领域。然而,由于当前AIGC模型的局限性,大多数模型只能在特定应用场景中充当单一组件,无法在实际应用中端到端地完成任务。在实际应用中,编辑专家通常需要处理各种图像和视频输入,并生成多模态输出——一段视频通常包含音频、文本及其他元素。这种跨多模态的整合程度是当前模型无法有效实现的。然而,基于代理的系统兴起使得利用AI工具解决复杂内容生成任务成为可能。为应对这些复杂场景,本文提出了一种多媒体代理 (MultiMedia-Agent),旨在自动化复杂内容创作。我们的代理系统包括一个数据生成管道、一个用于内容创作的工具库,以及一组用于评估偏好对齐的指标。值得注意的是,我们引入了技能习得理论来建模训练数据整理和代理训练过程。我们设计了一种用于规划优化的两阶段关联策略,包括自我关联和模型偏好关联。此外,我们通过包含基础/成功规划微调和偏好优化的三阶段方法,利用生成的规划来训练MultiMedia-Agent。比较结果表明,我们的方法是有效的,并且与新颖模型相比,MultiMedia-Agent能够生成更好的多媒体内容。 |
| 2026-01-06 | Empowering Reliable Visual-Centric Instruction Following in MLLMs | null | 评估多模态大语言模型(MLLMs)的指令遵循(IF)能力对于严格评估模型输出如何忠实地遵循用户指定的意图至关重要。然而,现有评估MLLMs指令遵循能力的基准主要关注文本模态中的语言指令。这些局限性阻碍了对指令遵循能力的彻底分析,因为它们忽略了语义丰富的视觉模态中嵌入的隐式约束。为了弥补这一空白,我们引入了VC-IFEval,这是一个新的基准,附带一个系统构建的数据集,用于评估MLLMs在多模态设置下的指令遵循能力。我们的基准系统地将依赖于视觉的约束纳入指令设计中,从而能够进行更严格和细粒度的评估,以判断MLLMs如何很好地使其输出与视觉输入和文本指令对齐。此外,通过在我们的数据集上对MLLMs进行微调,我们在视觉指令遵循的准确性和依从性方面取得了显著提升。通过对具有代表性的MLLMs进行广泛评估,我们为当前模型的优势和局限性提供了新的见解。 |
| 2026-01-06 | UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision | null | 尽管统一多模态模型(UMM)在跨模态理解方面取得了显著成功,但在利用其内部知识进行高质量生成方面仍存在显著差距。我们将这种差异形式化为传导性失语症,即模型能够准确解释多模态输入,但难以将这种理解转化为忠实且可控的合成。为解决此问题,我们提出了UniCorn,一个简洁而优雅的自我提升框架,它无需外部数据或教师监督。通过将单个UMM划分为提议者、解决者和评判者三个协作角色,UniCorn通过自我博弈生成高质量交互,并采用认知模式重建将潜在理解提炼为显式生成信号。为验证多模态一致性的恢复,我们引入了UniCycle,这是一个基于文本到图像再到文本重建循环的循环一致性基准。广泛的实验表明,UniCorn在六个通用图像生成基准上对基模型实现了全面而显著的改进。值得注意的是,它在TIIF(73.8)、DPG(86.8)、CompBench(88.5)和UniCycle上达到了SOTA性能,同时在WISE上进一步取得了+5.0的显著增益,在OneIG上取得了+6.5的显著增益。这些结果突出表明,我们的方法在保持强大理解能力的同时显著增强了T2I生成,展示了统一多模态智能中完全自监督精炼的可扩展性。 |
| 2026-01-06 | AnatomiX, an Anatomy-Aware Grounded Multimodal Large Language Model for Chest X-Ray Interpretation | null | 多模态医学大语言模型在胸部X光片解读方面取得了令人印象深刻的进展,但在空间推理和解剖学理解方面仍面临挑战。尽管现有定位技术提高了整体性能,但它们往往未能建立真正的解剖学对应关系,导致在医学领域中出现不正确的解剖学理解。为了弥补这一空白,我们引入了AnatomiX,一个明确设计用于解剖学定位胸部X光片解读的多任务多模态大语言模型。受放射学工作流程的启发,AnatomiX采用两阶段方法:首先,它识别解剖结构并提取其特征,然后利用大语言模型执行各种下游任务,例如短语定位、报告生成、视觉问答和图像理解。在多个基准上进行的大量实验表明,与现有方法相比,AnatomiX实现了卓越的解剖学推理,并在解剖学定位、短语定位、定位诊断和定位描述任务上的性能提升了25%以上。代码和预训练模型可在https://github.com/aneesurhashmi/anatomix获取。 |
| 2026-01-06 | Decentralized Autoregressive Generation | null | 我们提出了自回归生成去中心化的理论分析。我们通过将概率生成速度表达为专家流的线性组合,定义了去中心化离散流匹配目标。我们还进行了实验,证明了多模态语言模型在多种基准下,去中心化和中心化训练设置之间的等效性。具体而言,我们比较了两种不同的范式:LLaVA 和 InternVL 2.5-1B,它们在指令调优阶段使用固定的 CLIP 视觉编码器并执行全参数微调(ViT+MLP+LLM)。 |
| 2026-01-06 | Text-Guided Layer Fusion Mitigates Hallucination in Multimodal LLMs | link | 多模态大语言模型(MLLM)通常依赖于冻结视觉编码器的一个单一深层特征,导致编码器丰富的视觉线索层级结构未被充分利用。MLLM仍然存在视觉上无根据的幻觉,这常常是由于依赖语言先验而非图像证据。尽管许多先前的缓解策略在文本侧操作,但它们使视觉表示保持不变,并且没有利用视觉层中编码的丰富特征层级结构。现有的多层融合方法部分解决了这一局限性,但它们仍是静态的,无论查询如何都应用相同的层混合。在这项工作中,我们引入了TGIF(Text-Guided Inter-layer Fusion),这是一个轻量级模块,它将编码器层视为深度方向的“专家”,并预测一种依赖于提示的视觉特征融合。TGIF遵循直接外部融合的原则,不需要更新视觉编码器,并增加了最小的开销。集成到LLaVA-1.5-7B中后,TGIF在幻觉、光学字符识别(OCR)和视觉问答(VQA)基准上提供了持续的改进,同时保持或提高了在ScienceQA、GQA和MMBench上的性能。这些结果表明,查询条件化的、层级感知的融合是加强视觉基础并减少现代MLLM中幻觉的有效方法。 |
| 2026-01-06 | Understanding Multi-Agent Reasoning with Large Language Models for Cartoon VQA | null | 风格化卡通图像的视觉问答(VQA)面临挑战,例如解释夸张的视觉抽象和叙事驱动的上下文,这些问题未能被在自然图像上训练的标准大型语言模型(LLM)充分解决。为了研究这个问题,本文引入了一个专门为卡通图像中的VQA任务设计的多智能体LLM框架。所提出的架构包含三个专门的智能体:视觉智能体、语言智能体和评论智能体,它们协同工作,通过整合视觉线索和叙事上下文来支持结构化推理。该框架在两个基于卡通的VQA数据集上进行了系统评估:Pororo和Simpsons。实验结果详细分析了每个智能体如何对最终预测做出贡献,从而加深了对卡通VQA和多模态推理中基于LLM的多智能体行为的理解。 |
| 2026-01-06 | IBISAgent: Reinforcing Pixel-Level Visual Reasoning in MLLMs for Universal Biomedical Object Referring and Segmentation | null | 最近关于医疗多模态大模型(MLLMs)的研究已逐渐将其重点从图像级理解转向细粒度、像素级理解。尽管分割是像素级理解的基础,但现有方法面临两大主要挑战。首先,它们引入隐式分割token,并需要同时微调MLLM和外部像素解码器,这增加了灾难性遗忘的风险,并限制了对域外场景的泛化能力。其次,大多数方法依赖于单次推理,缺乏迭代细化分割结果的能力,导致性能次优。为了克服这些局限性,我们提出了一种名为IBISAgent的新型智能体式MLLM,它将分割重新定义为一个以视觉为中心的多步骤决策过程。IBISAgent使MLLM能够生成交错推理和基于文本的点击动作,调用分割工具,并在无需架构修改的情况下生成高质量掩膜。通过在掩膜图像特征上迭代执行多步骤视觉推理,IBISAgent自然支持掩膜细化,并促进了像素级视觉推理能力的发展。我们进一步设计了一个两阶段训练框架,包括冷启动监督微调和带有定制化细粒度奖励的智能体强化学习,从而增强了模型在复杂医学指代和推理分割任务中的鲁棒性。大量实验表明,IBISAgent持续优于闭源和开源的SOTA方法。所有数据集、代码和训练模型将公开发布。 |
| 2026-01-06 | MMFormalizer: Multimodal Autoformalization in the Wild | null | 自动形式化将自然语言数学转化为形式化陈述以实现机器推理,但在实际应用中面临基本挑战,原因在于物理世界的多模态特性,其中物理学需要从视觉元素中推断出隐藏约束(例如质量或能量)。为解决此问题,我们提出了MMFormalizer,它通过将自适应接地与来自真实世界数学和物理领域的实体相结合,将自动形式化从文本扩展开来。MMFormalizer通过递归接地和公理组合,从感知接地原语递归地构建形式化命题,其中自适应递归终止确保每个抽象都由视觉证据支持,并锚定于维度或公理接地。我们在新基准PhyX-AF上评估了MMFormalizer,该基准包含来自MathVerse、PhyX、Synthetic Geometry和Analytic Geometry的115个精心策划的样本,涵盖了多样的多模态自动形式化任务。结果表明,GPT-5和Gemini-3-Pro等前沿模型实现了最高的编译和语义准确性,其中GPT-5在物理推理方面表现出色,而几何学仍然是最具挑战性的领域。总的来说,MMFormalizer为统一的多模态自动形式化提供了一个可扩展的框架,连接了感知与形式推理。据我们所知,这是第一个能够处理经典力学(源于哈密顿量)、相对论、量子力学和热力学的多模态自动形式化方法。更多详情请访问我们的项目页面:MMFormalizer.github.io |
| 2026-01-06 | ReCCur: A Recursive Corner-Case Curation Framework for Robust Vision-Language Understanding in Open and Edge Scenarios | null | 边缘案例是导致实际故障的罕见或极端场景,但难以大规模策展:网络数据嘈杂,标签脆弱,且边缘部署阻碍大规模重训练。我们提出 ReCCur (递归边缘案例策展),这是一个低计算量框架,通过多智能体递归管道将嘈杂的网络图像转换为可审计的细粒度标签。首先,大规模数据采集和过滤利用视觉-语言模型 (VLM) 扩展领域词汇,抓取网络数据,并辅以少量人工抽查,强制执行三模态(图像、描述、关键词)一致性,以获得精炼的候选集。接着,专家混合知识蒸馏利用互补编码器(例如 CLIP, DINOv2, BEiT)进行 kNN 投票,结合双重置信度激活和不确定性采样,最终收敛到一个高精度数据集。最后,基于区域证据的 VLM 对抗性标注将一个提议者(多粒度区域和语义线索)与一个验证者(全局和局部链式一致性)配对,以生成可解释的标签并闭环。在真实的边缘案例场景(例如,水淹车辆检查)中,ReCCur 可在消费级 GPU 上运行,稳定提升纯度和可分离性,且仅需最少的人工监督,为资源受限条件下的下游训练和评估提供了实用的基础。代码和数据集将发布。 |
| 2026-01-02 | Investigating the Viability of Employing Multi-modal Large Language Models in the Context of Audio Deepfake Detection | null | 尽管视觉语言模型(VLMs)和多模态大型语言模型(MLLMs)在检测图像和视频深度伪造方面表现出强大的泛化能力,但它们在音频深度伪造检测中的应用仍未得到充分探索。在这项工作中,我们旨在探索多模态大型语言模型(MLLMs)在音频深度伪造检测方面的潜力。我们结合音频输入和一系列文本提示作为查询,以探究MLLMs学习跨模态鲁棒表示用于音频深度伪造检测的可行性。因此,我们尝试探索结合二元决策的文本感知、上下文丰富的问答式提示。我们假设这种特征引导的推理将有助于促进更深层次的多模态理解,并实现用于音频深度伪造检测的鲁棒特征学习。我们在两种评估模式下(a)零样本和(b)微调,评估了两种MLLMs(Qwen2-Audio-7B-Instruct和SALMONN)的性能。我们的实验表明,将音频与多提示方法结合可能是音频深度伪造检测的一个可行方向。我们的实验表明,在没有任务特定训练的情况下,模型表现不佳,并且难以泛化到域外数据。然而,它们在最小监督下对域内数据取得了良好性能,这表明了其在音频深度伪造检测方面具有广阔的潜力。 |
| 2026-01-02 | Grading Handwritten Engineering Exams with Multimodal Large Language Models | null | 手写STEM考试能够捕捉开放式推理和图表,但人工评分速度慢且难以扩展。我们提出了一种端到端的工作流程,用于利用多模态大语言模型(LLMs)对扫描的手写工程测验进行评分,该流程保留了标准考试过程(A4纸,学生手写不受限制)。讲师只需提供一份手写参考答案(100%)和一套简短的评分规则;该参考答案会被转换为纯文本摘要,用于条件化评分,而无需暴露参考答案的扫描件。可靠性通过多阶段设计实现,包括格式/存在性检查以防止对空白答案进行评分、独立评分器集成、监督者聚合,以及带有确定性验证的严格模板,以生成可审计、机器可解析的报告。我们在洁净室协议下,对一份预留的斯洛文尼亚语真实课程测验(包含手绘电路原理图)评估了冻结的管道。借助最先进的后端(GPT-5.2和Gemini-3 Pro),整个管道实现了与讲师评分约8点的平均绝对误差,且偏差较低,在 |
| 2026-01-02 | Detecting Performance Degradation under Data Shift in Pathology Vision-Language Model | null | 视觉语言模型(VLM)在医学图像分析和疾病诊断方面展现出巨大潜力。然而,在部署后,当输入数据分布偏离开发过程中观察到的分布时,其性能可能会下降。检测此类性能下降对于临床可靠性至关重要,但对于在没有标签数据的情况下运行的大型预训练VLM来说仍然具有挑战性。在这项研究中,我们调查了最先进的病理学VLM在数据偏移下的性能下降检测问题。我们检查了输入层数据偏移和输出层预测行为,以了解它们在监测模型可靠性方面的各自作用。为了促进对输入数据偏移的系统分析,我们开发了DomainSAT,这是一个轻量级工具箱,具有图形界面,集成了代表性的偏移检测算法,并支持直观地探索数据偏移。我们的分析表明,尽管输入数据偏移检测在识别分布变化和提供早期诊断信号方面是有效的,但它并不总是与实际的性能下降相对应。受此观察结果启发,我们进一步研究了基于输出的监测,并引入了一种无标签、基于置信度的下降指标,该指标直接捕获模型预测置信度的变化。我们发现该指标与性能下降表现出密切关系,并作为输入偏移检测的有效补充。在一个用于肿瘤分类的大规模病理学数据集上的实验表明,结合输入数据偏移检测和基于输出置信度的指标,能够更可靠地检测和解释数据偏移下VLM的性能下降。这些发现为数字病理学中基础模型的可靠性监测提供了一个实用且互补的框架。 |
| 2026-01-02 | Bayesian Inverse Games with High-Dimensional Multi-Modal Observations | null | 许多多智能体交互场景可以自然地建模为非合作博弈,其中每个智能体的决策依赖于其他智能体的未来行动。然而,为自主决策部署博弈论规划器需要明确所有智能体的目标。为了规避这一实际困难,近期工作开发了最大似然技术来求解逆博弈,该技术可以从交互数据中识别未知智能体目标。不幸的是,这些方法只推断点估计,不量化估计器不确定性;相应地,下游规划决策可能会过度自信地采取不安全行动。我们提出了一种近似贝叶斯推断方法来求解逆博弈问题,该方法能够整合来自多种模态的观测数据,并用于在有限传感器观测下实时从隐藏智能体目标的贝叶斯后验分布中生成样本。具体来说,所提出的贝叶斯逆博弈框架在交互数据集上训练了一个嵌入了可微分纳什博弈求解器的结构化变分自编码器,并且不需要智能体真实目标的标签。大量实验表明,我们的框架成功学习了先验和后验分布,提高了相对于基于最大似然估计的逆博弈方法的推断质量,并在不牺牲效率的情况下实现了更安全的下游决策。当轨迹信息不具信息量或不可用时,多模态推断通过利用额外的观测模态进一步降低了不确定性。 |
| 2026-01-02 | RoboReward: General-Purpose Vision-Language Reward Models for Robotics | null | 精心设计的奖励对于有效的基于强化学习的策略改进至关重要。在现实世界的机器人领域中,获取此类奖励通常需要耗费大量人力的手动标注,或者脆弱的手工设计目标。视觉语言模型 (VLM) 已显示出作为自动奖励模型的潜力,但其在真实机器人任务上的有效性却知之甚少。在这项工作中,我们旨在通过引入 (1) RoboReward,一个基于来自 Open X-Embodiment (OXE) 和 RoboArena 的大规模真实机器人语料库构建的机器人奖励数据集和基准,以及 (2) 在此数据集上训练的视觉语言奖励模型(RoboReward 4B/8B),来弥补这一空白。由于 OXE 侧重于成功案例且缺乏失败示例,我们提出了一种负例数据增强流程,通过对成功情节进行反事实重新标注和时间裁剪,从相同的视频中创建部分进展结果,从而生成校准的负例和“几乎成功”的示例。利用这一框架,我们生成了一个广泛的训练和评估数据集,该数据集涵盖了多样化的任务和具身类型,并能够系统地评估最先进的视觉语言模型是否能为机器人可靠地提供奖励。我们对领先的开源和专有视觉语言模型进行的评估显示,没有模型能在所有任务中表现出色,这表明仍有很大的改进空间。随后,我们训练了通用型 40 亿和 80 亿参数模型,这些模型在为短期机器人任务分配奖励方面优于规模更大的视觉语言模型。最后,我们将 80 亿参数的奖励视觉语言模型部署到真实机器人强化学习中,发现它在策略学习方面比 Gemini Robotics-ER 1.5(一个在机器人数据上训练的前沿物理推理视觉语言模型)有了显著提升,同时大幅缩小了与使用人类提供奖励的强化学习训练之间的差距。 |
| 2026-01-02 | Wave2Word: A Multimodal Transformer Framework for Joint EEG-Text Alignment and Multi-Task Representation Learning in Neurocritical Care | null | 持续脑电图(EEG)在神经重症监护中常规用于监测癫痫发作及其他有害脑活动,包括具有临床意义的节律性和周期性模式。尽管深度学习方法在癫痫检测中已达到高准确性,但大多数现有方法仍以癫痫为中心,依赖离散标签监督,且主要使用基于准确性的指标进行评估。当前脑电图建模实践的一个主要局限是,学习到的表征与脑电图结果在临床工作流程中如何被解读和总结之间存在弱对应关系。有害脑电活动表现出重叠模式、分级专家一致性和时间持久性,这些仅靠分类目标无法很好地捕捉。本工作提出了一种多模态脑电图表征学习框架,将信号域建模与结构化临床语言监督相结合。首先,原始脑电图被转换为纵向双极导联和时频表示。其次,双Transformer编码器建模互补的时间和以频率为中心的依赖关系,并使用自适应门控机制进行融合。第三,通过对比目标将脑电图嵌入与结构化专家共识描述对齐。最后,引入一种脑电图条件文本重建损失作为表征层面的约束,以及标准分类损失。使用受控的训练-验证-测试分割进行的实验评估实现了六分类测试准确率0.9797。消融分析表明,移除对比对齐会将跨模态检索性能从Recall@10的0.3390降低到0.0045,尽管分类准确率变化不大。这些发现表明,判别准确性并不能可靠地反映具有临床意义的脑电图建模的表征质量。 |
| 2026-01-02 | Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation | link | 语音驱动人像生成技术通过静态肖像创建逼真的虚拟形象,用于虚拟通信和内容创作。然而,当前模型尚未传达真正的互动通信感,通常生成缺乏情感投入的单向响应。我们确定了实现真正互动虚拟形象的两个关键挑战:在因果约束下实时生成动作,以及在没有额外标注数据的情况下学习富有表现力、生动的反应。为解决这些挑战,我们提出了Avatar Forcing,这是一个用于互动头部虚拟形象生成的新框架,它通过扩散强制建模用户与虚拟形象的实时互动。这种设计使虚拟形象能够以低延迟处理用户的音频和动作等实时多模态输入,从而对语音、点头和笑声等口头和非口头提示做出即时反应。此外,我们引入了一种直接偏好优化方法,该方法利用通过移除用户条件构建的合成劣势样本,从而实现富有表现力互动的无标签学习。实验结果表明,我们的框架实现了低延迟(约500毫秒)的实时互动,与基线相比速度提升了6.8倍,并生成了响应迅速且富有表现力的虚拟形象动作,其偏好度相比基线超过80%。 |
| 2026-01-02 | CRoPS: A Training-Free Hallucination Mitigation Framework for Vision-Language Models | null | 尽管大规模视觉-语言模型(LVLM)取得了快速成功,但一个持续存在的挑战是它们倾向于生成幻觉内容,这损害了其在实际应用中的可靠性。现有的免训练方法虽然解决了幻觉问题,但面临两个局限性:(i) 它们依赖于对幻觉来源的狭隘假设,以及 (ii) 它们的有效性在生成过程的后期(幻觉最有可能发生时)会下降。一种常见策略是通过完全或部分移除视觉标记来构建幻觉模型,并将其与原始模型进行对比。然而,仅凭此方法被证明不足,因为视觉信息仍会传播到生成的文本中。基于这一见解,我们提出了一种新颖的幻觉模型,该模型通过选择性地移除关键文本标记来捕获幻觉效应。我们进一步引入了广义对比解码,该解码整合了多个幻觉模型以表示多样化的幻觉来源。这些思想共同构成了CRoPS,这是一个免训练的幻觉缓解框架,它将CHAIR分数提高了20%,并在六个基准测试和三个LVLM家族中取得了持续的提升,优于最先进的免训练方法。 |
| 2026-01-02 | HyperPriv-EPN: Hypergraph Learning with Privileged Knowledge for Ependymoma Prognosis | null | 室管膜瘤的术前预后对治疗计划至关重要,但由于MRI相比术后手术报告缺乏语义洞察力,使其极具挑战性。现有的多模态方法在推理时无法利用这种特权文本数据。为弥补这一不足,我们提出了HyperPriv-EPN,一个基于超图的利用特权信息学习(LUPI)框架。我们引入了一种分离图策略,利用一个共享编码器同时处理一个教师图(富含特权术后信息)和一个学生图(仅限于术前数据)。通过双流蒸馏,学生图学习仅从视觉特征中“幻觉”出语义社群结构。在一个包含311名患者的多中心队列中进行验证,HyperPriv-EPN实现了最先进的诊断准确性和生存分层。这有效地将专家知识转移到术前环境中,释放了历史术后数据的价值,以指导新患者的诊断,且在推理时无需文本。 |
| 2026-01-02 | DA-DPO: Cost-efficient Difficulty-aware Preference Optimization for Reducing MLLM Hallucinations | null | 直接偏好优化 (DPO) 在缓解多模态大语言模型 (MLLMs) 中的幻觉方面展现出巨大潜力。然而,现有的多模态 DPO 方法常因偏好数据中的难度不平衡而遭受过拟合问题。我们的分析表明,MLLMs 倾向于过度强调易于区分的偏好对,这阻碍了细粒度幻觉抑制并降低了整体性能。为解决此问题,我们提出了一种经济高效的框架——难度感知直接偏好优化 (DA-DPO),旨在平衡学习过程。DA-DPO 包含两个主要组成部分:(1) 难度估计利用具有互补生成式和对比式目标的预训练视觉-语言模型,通过分布感知投票策略整合其输出,从而在无需额外训练的情况下生成鲁棒的难度分数;(2) 难度感知训练根据估计难度重新加权偏好对,降低简单样本的权重同时强调更难的样本以缓解过拟合。该框架通过优先处理有挑战性的例子,实现了更有效的偏好优化,且无需新数据或额外的微调阶段。大量实验表明,DA-DPO 持续改进多模态偏好优化,对幻觉展现出更强的鲁棒性和在标准基准上更好的泛化能力,同时保持计算效率。项目页面可在 https://artanic30.github.io/project_pages/DA-DPO/ 访问。 |
| 2025-12-31 | Coordinated Humanoid Manipulation with Choice Policies | null | 人形机器人在以人为中心的环境中操作前景广阔,但实现头部、手部和腿部之间鲁棒的全身协调仍然是一个重大挑战。我们提出了一种将模块化遥操作接口与可扩展学习框架相结合的系统来解决这个问题。我们的遥操作设计将人形机器人控制分解为直观的子模块,包括手眼协调、抓取基元、机械臂末端执行器跟踪和运动。这种模块化使我们能够高效地收集高质量的示范数据。在此基础上,我们引入了选择策略(Choice Policy),这是一种模仿学习方法,能够生成多个候选动作并学习对其进行评分。这种架构能够实现快速推理和多模态行为的有效建模。我们在两个实际任务中验证了我们的方法:洗碗机装载和用于擦拭白板的全身运动操作。实验表明,选择策略显著优于扩散策略和标准行为克隆。此外,我们的结果表明,手眼协调对于长周期任务的成功至关重要。我们的工作展示了一条实用的途径,可实现非结构化环境中人形机器人协调操作的可扩展数据收集和学习。 |
| 2025-12-31 | Extreme nonlinear optics in optical fibers | null | 本文综述了光纤中极端非线性光学领域,重点介绍了关键现象和进展。文中讨论了飞秒激光脉冲引起的多重电离效应,该效应产生等离子体并导致永久性材料改性,以及等离子体发光及其对材料缺陷的依赖性。本文还探讨了等离子体丝的形成和动力学,包括螺旋结构,以及在通信和粒子操纵中具有实用价值的彩虹螺旋发射模式。综述内容涵盖了时空波的产生、超连续谱展宽以及先进建模技术,例如用于描述光脉冲演化的多模单向脉冲传播方程。文章详细介绍了涉及离散锥形波和超连续谱产生优化的实验演示。本文强调了光子晶体光纤,尤其是空心变体,在实现宽超连续谱和拉曼频率梳、超短脉冲压缩、高次谐波产生、等离子体形成和非经典光产生方面的独特能力。我们的展望着重于时空螺旋波、超短脉冲传播、真空紫外和中红外超连续谱产生以及创新光纤技术方面的持续研究。未来的方向侧重于增强光纤性能、理解多模波动力学以及扩展在电信、传感和量子科学领域的应用。 |
| 2025-12-31 | DarkEQA: Benchmarking Vision-Language Models for Embodied Question Answering in Low-Light Indoor Environments | null | 视觉语言模型(VLM)正越来越多地被用作具身智能体的核心推理模块。现有基准在理想、光照充足的条件下评估其能力,然而,鲁棒的24/7全天候运行要求在各种视觉退化下表现良好,包括夜间或黑暗环境下的低光照条件——这一核心需求在很大程度上被忽视了。为解决这一未充分探索的挑战,我们提出了DarkEQA,一个开源基准,用于在多级别低光照条件下评估与EQA相关的感知原语。DarkEQA通过在受控退化下评估来自以自我为中心的观测的问答来隔离感知瓶颈,从而实现可归因的鲁棒性分析。DarkEQA的一个关键设计特点是其物理保真度:视觉退化在线性RAW空间中建模,模拟基于物理的光照衰减和传感器噪声,然后是一个受ISP启发的渲染管线。我们通过评估各种最先进的VLM和低光照图像增强(LLIE)模型来展示DarkEQA的实用性。我们的分析系统地揭示了VLM在这些具有挑战性的视觉条件下运行时的局限性。我们的代码和基准数据集将在论文接收后发布。 |
| 2025-12-31 | VIPER: Process-aware Evaluation for Generative Video Reasoning | null | 视频生成领域的最新突破展示了一种新兴能力,即帧链(CoF)推理,其中模型通过生成连续帧来解决复杂任务。尽管这些模型在生成式视频推理(GVR)方面展现出潜力,但现有的评估框架通常依赖单帧评估,这可能导致结果劫持(outcome-hacking),即模型通过错误的过程得出正确结论。为此,我们提出了一种过程感知评估范式。我们引入了VIPER,这是一个涵盖时间、结构、符号、空间、物理和规划推理等16项任务的综合基准。此外,我们提出了过程-结果一致性(POC@r),这是一个利用VLM作为评判(VLM-as-Judge)并结合分层评分标准来评估中间步骤的有效性和最终结果的新指标。我们的实验表明,最先进的视频模型仅能达到约20%的POC@1.0,并表现出显著的结果劫持现象。我们进一步探讨了测试时缩放(test-time scaling)和采样鲁棒性(sampling robustness)的影响,突出了当前视频生成与真正的通用视觉推理之间存在的显著差距。我们的基准将公开发布。 |
| 2025-12-31 | CPJ: Explainable Agricultural Pest Diagnosis via Caption-Prompt-Judge with LLM-Judged Refinement | null | 准确且可解释的作物病害诊断对农业决策至关重要,然而现有方法通常依赖于昂贵的监督式微调,并且在领域迁移下表现不佳。我们提出了Caption--Prompt--Judge (CPJ),一个免训练的少样本框架,它通过结构化、可解释的图像描述增强了Agri-Pest VQA。CPJ利用大型视觉语言模型生成多角度描述,通过“LLM作为评判者”模块进行迭代精炼,然后为识别和管理响应的双答案VQA过程提供信息。在CDDMBench上进行评估,CPJ显著提高了性能:使用GPT-5-mini描述时,GPT-5-Nano在疾病分类中实现了22.7个百分点的提升,并在问答分数上相较于无描述基线提升了19.5分。该框架提供了透明的、基于证据的推理,无需微调即可推动鲁棒且可解释的农业诊断。我们的代码和数据可在以下网址公开获取:https://github.com/CPJ-Agricultural/CPJ-Agricultural-Diagnosis。 |
| 2025-12-31 | RAIR: A Rule-Aware Benchmark Uniting Challenging Long-Tail and Visual Salience Subset for E-commerce Relevance Assessment | null | 搜索相关性在网络电子商务中扮演着核心角色。尽管大型语言模型(LLM)在相关性任务上取得了显著成果,但现有基准缺乏足够的复杂性来支持全面的模型评估,导致行业内缺乏标准化相关性评估指标。为解决这一局限,我们提出了图像相关性评估规则感知基准(RAIR),这是一个源自真实世界场景的中文数据集。RAIR建立了一个相关性评估的标准化框架,并提供了一套通用规则,为标准化评估奠定了基础。此外,RAIR分析了当前相关性模型所需的基本能力,并引入了一个包含三个子集的综合数据集:(1) 一个采用行业均衡抽样以评估模型基础能力的通用子集;(2) 一个侧重于挑战性案例以评估性能极限的长尾难题子集;(3) 一个用于评估多模态理解能力的视觉显著性子集。我们使用14个开源和闭源模型在RAIR上进行了实验。结果表明,即使对于表现最佳的GPT-5,RAIR也提出了足够的挑战。RAIR数据现已可用,可作为相关性评估的行业基准,同时为通用大型语言模型(LLM)和视觉语言模型(VLM)的评估提供了新见解。 |
| 2025-12-31 | FinMMDocR: Benchmarking Financial Multimodal Reasoning with Scenario Awareness, Document Understanding, and Multi-Step Computation | link | 我们引入了FinMMDocR,这是一个新颖的双语多模态基准,用于评估多模态大语言模型(MLLMs)在真实世界金融数值推理任务上的表现。与现有基准相比,我们的工作带来了三项主要进展。(1) 场景感知能力:1,200个专家标注问题中有57.9%融合了12种隐性金融场景(例如,投资组合管理),要求模型基于假设进行专家级推理;(2) 文档理解能力:837份中/英文文档涵盖9种类型(例如,公司研究),平均50.8页并包含丰富的视觉元素,在金融文档的广度和深度两方面显著超越现有基准;(3) 多步计算能力:问题平均需要11步推理(5.3步信息提取 + 5.7步计算步骤),其中65.0%的问题需要跨页证据(平均2.4页)。表现最佳的MLLM仅达到58.0%的准确率,并且不同的检索增强生成(RAG)方法在此任务上表现出显著的性能差异。我们期望FinMMDocR能推动MLLMs和推理增强方法在真实世界场景中复杂多模态推理任务上的改进。 |
| 2025-12-31 | Semi-Automated Data Annotation in Multisensor Datasets for Autonomous Vehicle Testing | null | 本报告介绍了在DARTS项目框架内开发的半自动化数据标注流程的设计与实现,该项目的目标是创建一个大规模、多模态的波兰驾驶场景数据集。对此类异构数据进行人工标注既昂贵又耗时。为应对这一挑战,所提出的解决方案采用了人机协作方法,将人工智能与人类专业知识相结合,以降低标注成本和缩短标注周期。该系统自动生成初始标注,支持迭代模型再训练,并融合了数据匿名化和域适应技术。该工具的核心是依赖3D目标检测算法来生成初步标注。总体而言,所开发的工具和方法大幅节省了时间,同时确保了跨不同传感器模态的高质量、一致的标注。该解决方案通过加速以项目标准化格式准备大规模标注数据集,直接支持DARTS项目,从而增强了波兰自动驾驶汽车研究的技术基础。 |
| 2025-12-31 | VLN-MME: Diagnosing MLLMs as Language-guided Visual Navigation agents | null | 多模态大型语言模型(MLLMs)在广泛的视觉-语言任务中展现了卓越的能力。然而,它们作为具身智能体的性能,其需要多轮对话空间推理和序列动作预测,仍需进一步探索。我们的工作通过引入一个统一且可扩展的评估框架,将传统导航数据集整合为一个名为VLN-MME的标准化基准,从而探究MLLMs作为零样本智能体在视觉-语言导航(VLN)背景下的这种潜力。我们以高度模块化和易于访问的设计简化了评估。这种灵活性简化了实验,实现了对不同MLLM架构、智能体设计和导航任务的结构化比较和组件级消融研究。关键的是,在我们的框架下,我们观察到用思维链(CoT)推理和自我反思增强我们的基线智能体,反而导致了意想不到的性能下降。这表明MLLMs在具身导航任务中表现出较差的上下文感知能力;尽管它们可以遵循指令并结构化其输出,但其3D空间推理保真度较低。VLN-MME为在具身导航场景中系统评估通用MLLMs奠定了基础,并揭示了它们在序列决策能力方面的局限性。我们相信这些发现为作为具身智能体的MLLM后期训练提供了重要指导。 |
| 2025-12-31 | GenZ: Foundational models as latent variable generators within traditional statistical models | null | 我们提出了GenZ,一个通过可解释语义特征连接基础模型和统计建模的混合模型。尽管大型语言模型拥有广泛的领域知识,但它们通常无法捕获对预测任务至关重要的数据集特有模式。我们的方法通过一个迭代过程来解决这个问题,该过程通过统计建模误差识别出项目组并进行对比,从而发现语义特征描述,而不是仅仅依赖基础模型的领域理解。我们将其表述为一个广义EM算法,该算法联合优化语义特征描述符和统计模型参数。该方法提示一个冻结的基础模型根据发现的特征对项目进行分类,并将这些判断视为潜在二元特征的噪声观测,这些潜在二元特征通过学习到的统计关系预测实值目标。我们在两个领域验证了该方法:房屋价格预测(享乐回归)和电影推荐的冷启动协同过滤。在房屋价格预测方面,我们的模型利用从多模态列表数据中发现的语义特征,实现了12%的中位相对误差,显著优于依赖大型语言模型通用领域知识的GPT-5基线(38%误差)。对于Netflix电影嵌入,我们的模型纯粹基于语义描述预测协同过滤表示,达到了0.59的余弦相似度——这一性能与传统协同过滤需要大约4000个用户评分才能达到的性能相匹配。发现的特征揭示了数据集特有的模式(例如,预测当地房地产市场的建筑细节,预测用户偏好的连锁品牌成员身份),这些模式与模型单独的领域知识有所不同。 |
| 2025-12-29 | RoboMirror: Understand Before You Imitate for Video to Humanoid Locomotion | null | 人类通过视觉观察学习运动,先理解视觉内容再模仿动作。然而,最先进的类人机器人运动系统依赖于精心策划的运动捕捉轨迹或稀疏的文本命令,在视觉理解与控制之间留下了关键鸿沟。文本到运动方法存在语义稀疏性和阶段性流程错误,而基于视频的方法仅执行机械式姿态模仿,缺乏真正的视觉理解。我们提出了RoboMirror,这是首个无需重定向的视频到运动框架,秉持“先理解后模仿”的理念。RoboMirror利用多模态大模型(VLMs),将原始的第一人称/第三人称视频提炼为视觉运动意图,这些意图直接调节基于扩散的策略,从而生成物理上合理、语义对齐的运动,无需显式姿态重建或重定向。大量实验验证了RoboMirror的有效性,它通过第一人称视频实现了临场感,将第三人称控制延迟大幅降低80%,并比基线方法实现了3.7%更高的任务成功率。通过将类人机器人控制重构为围绕视频理解,我们弥合了视觉理解与动作之间的鸿沟。 |
| 2025-12-29 | OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding | null | 全模态大语言模型在统一音频和视觉模态方面取得了显著进展;然而,它们通常缺乏细粒度的跨模态理解,并且在多模态对齐方面存在困难。为解决这些局限性,我们引入了OmniAgent,这是一种完全由音频引导的主动感知智能体,它能动态编排专用工具,以实现更细粒度的音视频推理。与以往依赖僵化、静态工作流和密集帧描述的方法不同,本文展示了一种从被动响应生成到主动多模态查询的范式转变。OmniAgent采用动态规划,自主按需编排工具调用,策略性地将感知注意力集中在任务相关的线索上。我们方法的核心是一种新颖的从粗到细的音频引导感知范式,它利用音频线索定位时间事件并指导后续推理。在三个音视频理解基准上的广泛实证评估表明,OmniAgent取得了最先进的性能,其准确率大幅超越领先的开源和专有模型10%至20%。 |
| 2025-12-29 | Scalable Residual Feature Aggregation Framework with Hybrid Metaheuristic Optimization for Robust Early Pancreatic Neoplasm Detection in Multimodal CT Imaging | link | 胰腺肿瘤的早期检测是一个重大的临床难题,这主要是因为肿瘤在CT扫描中常表现为对比度边缘不明显,且患者间的解剖结构变异较大。这些复杂性需要通过一个有效且可扩展的系统来解决,该系统能够增强细微视觉线索的显著性,并对多模态影像数据提供高水平的泛化能力。本研究提出了一种可扩展残差特征聚合(SRFA)框架来满足这些条件。该框架整合了一个预处理流程,随后使用MAGRes-UNet进行分割,这种方法能够有效提高胰腺结构和感兴趣区域的可见性。采用具有残差特征存储的DenseNet-121提取特征,以便在不损失属性的情况下聚合深层分层特征。进一步地,采用混合HHO-BA元启发式特征选择策略,确保最佳特征子集提炼。在分类阶段,系统基于一种新的混合模型进行训练,该模型整合了Vision Transformer(ViT)的全局注意力能力以及EfficientNet-B3的高表示效率。采用结合SSA和GWO的双重优化机制微调超参数,以增强鲁棒性并减少过拟合。实验结果表明性能显著提高,所提出的模型达到了96.23%的准确率、95.58%的F1分数和94.83%的特异性,显著优于传统的CNN和当前基于Transformer的模型。这些结果突显了SRFA框架在胰腺肿瘤早期检测中作为一种有用工具的可能性。 |
| 2025-12-29 | Same or Not? Enhancing Visual Perception in Vision-Language Models | link | 视觉-语言模型(VLM)擅长广泛的视觉理解,但它们仍然是粗粒度的,表现出视觉偏差,并忽略细微的视觉细节。现有的训练语料库通过侧重于通用识别(“这是猫还是狗?”)而非细粒度感知来强化了这一局限性。为了解决这个问题,我们引入了一个新的训练语料库和任务,旨在增强VLM的感知能力。TWIN是一个包含561,000个图像对查询的大规模数据集,它要求模型判断两个视觉上相似的图像是否描绘了同一个物体,从而鼓励模型关注细微的视觉线索。该数据集涵盖了跨越不同上下文、视角和外观的各种日常物体。在TWIN上对VLM进行微调,即使在艺术品、动物、植物和地标等未见过的领域,也能在细粒度识别方面带来显著提升。为了量化这些提升,我们引入了FGVQA,这是一个包含12,000个查询的基准套件,它重新利用了来自多个领域的细粒度识别和检索数据集。尽管现有VLM在FGVQA上表现不佳,但当在TWIN上进行微调后,它们的性能提升高达19.3%,同时不损害在通用VQA基准上的性能。最后,我们的TWIN数据集与物体标注的规模扩展性良好,我们的分析表明规模是性能的关键。我们设想TWIN可以作为开源VLM训练语料库的即插即用补充,从而提升未来模型的感知精度。项目网页:https://glab-caltech.github.io/twin/ |
| 2025-12-29 | LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation | null | 通过扩散实现的实时视频生成对于构建通用多模态交互式AI系统至关重要。然而,扩散模型中通过迭代过程对所有视频帧进行双向注意力同步去噪阻碍了实时交互。尽管现有的蒸馏方法可以使模型自回归并减少采样步长以缓解此问题,但它们主要侧重于文本到视频生成,使得人机交互不自然且效率低下。本文旨在弥合这一差距,实现基于多模态上下文(包括文本、图像和音频)的实时交互式视频扩散。鉴于领先的策略内蒸馏方法Self Forcing在多模态条件作用下会遇到挑战(如闪烁、黑帧和质量下降等视觉伪影),我们研究了一种改进的蒸馏方案,重点关注条件输入的质量以及策略内优化的初始化和调度。在多模态条件(音频、图像和文本)头像视频生成基准(包括HDTF、AVSpeech和CelebV-HQ)上,我们的蒸馏模型在推理成本和延迟降低20倍的情况下,视觉质量与相似或更大尺寸的全步长双向基线模型相匹配。此外,我们将模型与音频语言模型和长视频推理技术Anchor-Heavy Identity Sinks集成,构建了LiveTalk——一个实时多模态交互式头像系统。在我们策划的多轮交互基准上进行的系统级评估表明,LiveTalk在多轮视频连贯性和内容质量方面优于最先进的模型(Sora2、Veo3),同时将响应延迟从1到2分钟缩短至实时生成,从而实现了无缝的人机多模态交互。 |
| 2025-12-29 | ProGuard: Towards Proactive Multimodal Safeguard | link | 生成模型的快速演进导致多模态安全风险持续涌现,暴露出现有防御方法的局限性。为应对这些挑战,我们提出了ProGuard,这是一种视觉语言主动防护系统,能够识别和描述分布外(OOD)安全风险,而无需传统被动方法所需的模型调整。我们首先构建了一个包含8.7万个样本的模态平衡数据集,每个样本都根据分层多模态安全分类法标注了二元安全标签和风险类别,有效缓解了模态偏差,并确保了文本、图像以及文本-图像输入之间的一致性审核。基于此数据集,我们纯粹通过强化学习(RL)训练了我们的视觉语言基础模型,以实现高效简洁的推理。为了在受控环境中模拟主动安全场景,我们进一步引入了OOD安全类别推理任务,并通过基于同义词库的相似性奖励增强了RL目标,鼓励模型为未见过的非安全类别生成简洁的描述。实验结果表明,ProGuard在二元安全分类方面达到了与闭源大模型相当的性能,并在非安全内容分类方面显著优于现有的开源防护模型。最值得注意的是,ProGuard展现出强大的主动审核能力,将OOD风险检测提升了52.6%,OOD风险描述提升了64.8%。 |
| 2025-12-29 | Instruction-Following Evaluation of Large Vision-Language Models | link | 在大语言模型 (LLM) 初步蓬勃发展之后,大量将LLM与视觉能力相结合的大视觉语言模型 (LVLM) 被提出。然而,已观察到LVLM在使用常用训练数据集进行视觉指令微调后,常常无法表现出集成前LLM所具备的指令遵循能力,导致它们未能按预期遵循任务指令。本研究定量证明了LVLM的指令遵循能力在微调后会下降,并分析了其根本原因。具体而言,我们构建了新的训练数据集,重点关注输出格式是否被明确指定。随后,我们研究了在微调过程中明确指出输出格式如何影响LVLM的指令遵循能力。我们的定量评估证实,使用常用数据集进行微调后,LVLM的指令遵循能力确实下降。此外,我们发现使用包含输出格式指令的数据集进行训练的LVLM,比不包含此类指令的模型,更能准确地遵循指令。这些发现表明,在(视觉)指令微调过程中包含带有输出格式指令的样本,可能有助于缓解指令遵循能力的下降。 |
| 2025-12-29 | ThinkGen: Generalized Thinking for Visual Generation | link | 多模态大型语言模型(MLLM)的最新进展表明,思维链(CoT)推理能够为复杂的理解任务提供系统性解决方案。然而,其在生成任务上的扩展仍处于萌芽阶段,并受限于阻碍泛化和适应性的场景特定机制。在这项工作中,我们提出了ThinkGen,这是首个思维驱动的视觉生成框架,它在各种生成场景中明确利用了MLLM的思维链(CoT)推理能力。ThinkGen采用了一种解耦架构,该架构包含一个预训练的MLLM和一个扩散Transformer(DiT),其中MLLM根据用户意图生成定制指令,DiT则根据这些指令生成高质量图像。我们进一步提出了一种可分离的基于GRPO的训练范式(SepGRPO),在MLLM和DiT模块之间交替进行强化学习。这种灵活的设计使得在不同数据集上进行联合训练成为可能,从而促进了有效的CoT推理以适应广泛的生成场景。大量实验表明,ThinkGen在多个生成基准上实现了鲁棒的、最先进的性能。代码已公开:https://github.com/jiaosiyuu/ThinkGen |
| 2025-12-29 | RxnBench: A Multimodal Benchmark for Evaluating Large Language Models on Chemical Reaction Understanding from Scientific Literature | null | 多模态大语言模型(MLLMs)与化学领域的结合有望彻底改变科学发现,然而,它们理解真实文献中密集、图形化的反应语言的能力仍未得到充分探索。在本文中,我们引入了RxnBench,一个多层基准测试,旨在严格评估MLLMs在科学PDFs中化学反应理解方面的能力。RxnBench包含两项任务:单图问答(SF-QA),它利用从305个精心整理的反应图示中提取的1,525个问题来测试细粒度视觉感知和机制推理能力;以及全文档问答(FD-QA),它要求模型从108篇文章中综合信息,需要对文本、图示和表格进行跨模态整合。我们对MLLMs的评估揭示了一个关键的能力差距:尽管模型擅长提取显式文本,但在深度化学逻辑和精确结构识别方面表现不佳。值得注意的是,具有推理时推理能力的模型显著优于标准架构,但没有一个能在FD-QA上达到50%的准确率。这些发现强调了对领域专用视觉编码器和更强大推理引擎的迫切需求,以推动自主AI化学家的发展。 |
| 2025-12-29 | VL-RouterBench: A Benchmark for Vision-Language Model Routing | null | 多模型路由已从一种工程技术发展成为基础性基础设施,然而现有工作缺乏一个系统化、可复现的基准来评估视觉-语言模型(VLM)。我们提出了VL-RouterBench,旨在系统地评估VLM路由系统的整体能力。该基准基于VLM的原始推理和评分日志,并构建了样本-模型对的质量和成本矩阵。在规模上,VL-RouterBench涵盖了14个数据集,横跨3个任务组,总计30,540个样本,并包括15个开源模型和2个API模型,产生了519,180个样本-模型对,总输入-输出token量达34,494,977。评估协议联合衡量了平均准确率、平均成本和吞吐量,并通过归一化成本和准确率的调和平均值构建了一个排名分数,以便在不同路由器配置和成本预算下进行比较。在此基准上,我们评估了10种路由方法和基线,并观察到显著的可路由性增益,而当前最好的路由器与理想的“Oracle”仍存在明显差距,这表明通过更精细的视觉线索和文本结构建模,路由器架构仍有很大的改进空间。我们将开源完整的数据构建和评估工具链,以促进多模态路由研究中的可比性、可复现性和实际部署。 |
| 2025-12-26 | See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning | link | 大型视觉-语言模型(VLM)通常受益于中间视觉线索,这些线索要么通过外部工具注入,要么在推理过程中生成为潜在视觉标记,但这些机制仍然忽视细粒度视觉证据(例如,图表中的折线),跨域泛化能力差,并产生高昂的推理时间成本。在本文中,我们提出了双向感知塑形(BiPS),它将问题条件下的遮罩视图转换为双向的“看哪里”信号,从而在训练期间塑形感知。BiPS首先在原始图像和仅保留与问题相关区域的证据保留视图之间应用KL一致性约束,鼓励对支持像素进行粗略但完整的覆盖。然后,它在原始图像和关键像素被遮罩以致图像不再支持原始答案的证据消融视图之间应用KL分离约束,从而阻止纯文本捷径(即,仅凭文本回答)并强制细粒度视觉依赖。在八个基准测试中,BiPS平均将Qwen2.5-VL-7B的性能提升了8.2%,并对未见数据集和图像类型显示出强大的域外泛化能力。 |
| 2025-12-26 | Explainable Multimodal Regression via Information Decomposition | link | 多模态回归旨在从异构输入源预测一个连续目标,通常依赖于早期融合或晚期融合等融合策略。然而,现有方法缺乏原则性工具来分解和量化每个模态的单独贡献及其相互作用,从而限制了多模态融合的可解释性。我们提出了一种基于部分信息分解(PID)的新颖多模态回归框架,该框架将模态特有表示分解为唯一、冗余和协同分量。基本的PID框架本质上是欠定的。为解决此问题,我们通过在潜在表示与变换后的响应变量(经过逆正态变换后)的联合分布中强制高斯性,引入了归纳偏置,从而实现了PID项的分析计算。此外,我们推导出了一个闭式条件独立正则化器,以促进每个模态中唯一信息的隔离。在六个真实世界数据集上的实验,包括一个基于多模态神经影像数据的大规模脑龄预测案例研究,表明我们的框架在预测准确性和可解释性方面均优于现有最先进方法,同时还能够实现明智的模态选择以进行高效推理。实现代码可在https://github.com/zhaozhaoma/PIDReg获取。 |
| 2025-12-26 | LongFly: Long-Horizon UAV Vision-and-Language Navigation with Spatiotemporal Context Integration | null | 无人机 (UAV) 是灾后搜救的关键工具,在长程导航中面临信息密度高、视角快速变化和动态结构等挑战。然而,当前的无人机视觉-语言导航 (VLN) 方法难以在复杂环境中建模长程时空上下文,导致语义对齐不准确和路径规划不稳定。为此,我们提出了 LongFly,一个用于长程无人机 VLN 的时空上下文建模框架。LongFly 提出了一种历史感知时空建模策略,将碎片化且冗余的历史数据转化为结构化、紧凑且富有表现力的表示。首先,我们提出了基于槽位的历史图像压缩模块,它动态地将多视角历史观测提炼成定长上下文表示。接着,引入了时空轨迹编码模块,以捕捉无人机轨迹的时间动态和空间结构。最后,为了将现有时空上下文与当前观测相结合,我们设计了提示引导的多模态集成模块,以支持基于时间的推理和鲁棒的航点预测。实验结果表明,LongFly 在成功率上超越了最先进的无人机 VLN 基线 7.89%,在路径长度加权成功率上超越 6.33%,并且在已知和未知环境中均保持一致。 |
| 2025-12-26 | iSHIFT: Lightweight Slow-Fast GUI Agent with Adaptive Perception | null | 多模态大语言模型(MLLM)在理解和交互复杂的、像素丰富的图形用户界面(GUI)环境方面展现出强大的潜力。然而,构建既能高效处理高级任务,又能精准进行细粒度交互的智能体仍然充满挑战。GUI智能体必须高效执行日常操作,同时处理需要精确视觉基础的任务,但现有方法在准确性取决于识别特定界面元素时面临困难。这些MLLM也仍然体量庞大,并且无法根据手头任务调整其推理深度。在这项工作中,我们引入了iSHIFT:基于灵活令牌的隐式快慢混合推理,这是一种轻量级智能体,它集成了潜在思维(隐式思维链)与感知控制模块。iSHIFT使MLLM能够在慢速模式(该模式利用详细的视觉基础实现高精度)和快速模式(该模式利用全局线索提高效率)之间切换。特殊的感知令牌将注意力引导至相关屏幕区域,从而使模型能够决定如何推理以及关注何处。尽管其仅有2.5B的紧凑规模,iSHIFT在多个基准数据集上达到了最先进的性能。 |
| 2025-12-26 | Look Closer! An Adversarial Parametric Editing Framework for Hallucination Mitigation in VLMs | link | 视觉-语言模型(VLMs)因其有前景的实际应用在人工智能社区获得了越来越多的关注,但它们表现出持续的幻觉问题,生成与视觉输入不符的输出。最近的研究将这些幻觉归因于VLMs过度依赖语言先验和视觉特征整合不足,并提出了启发式解码校准策略来减轻它们。然而,这些策略不可训练的性质本身限制了它们的优化潜力。为此,我们提出了一个用于VLM幻觉缓解的对抗性参数编辑框架(ALEAHallu),该框架遵循“激活-定位-编辑-对抗性”范式。具体来说,我们首先构建一个激活数据集,该数据集包含扎根响应(积极样本,它们认真地锚定在视觉特征中)和幻觉响应(消极样本,它们反映了大型语言模型(LLM)的先验偏差和内部知识伪影)。接下来,我们通过分析响应对的差分隐藏状态来识别关键的易产生幻觉的参数簇。然后,这些簇使用注入了对抗性调整前缀的提示进行微调,这些前缀被优化以最大化视觉忽略,从而迫使模型优先考虑视觉证据而非固有的参数偏差。在生成式和判别式VLM任务上的评估表明ALEAHallu在缓解幻觉方面具有显著有效性。我们的代码可在https://github.com/hujiayu1223/ALEAHallu获取。 |
| 2025-12-26 | LVLM-Aided Alignment of Task-Specific Vision Models | null | 在高风险领域,小型任务专用视觉模型因其计算要求低以及有大量方法可用于解释其结果而至关重要。然而,这些解释通常揭示模型未能很好地与人类领域知识对齐,而是依赖虚假相关性。这可能导致一旦部署到现实世界中,模型会表现出脆弱行为。为解决这个问题,我们引入了一种新颖高效的方法,通过利用大型视觉语言模型(LVLM)的泛化能力,将小型任务专用视觉模型与人类领域知识对齐。我们的LVLM辅助视觉对齐(LVLM-VA)方法提供了一个双向接口,将模型行为翻译成自然语言,并将人类类别级规范映射到图像级批判,从而实现领域专家与模型之间的有效交互。我们的方法在将模型行为与人类规范对齐方面表现出显著改进,并在合成和真实世界数据集上得到了验证。我们表明,在无需细粒度反馈的情况下,它有效地减少了模型对虚假特征和群体特定偏差的依赖。 |
| 2025-12-26 | Perceive and Calibrate: Analyzing and Enhancing Robustness of Medical Multi-Modal Large Language Models | null | 医疗多模态大语言模型(MLLMs)已展现出良好的临床表现。然而,它们对真实世界输入扰动(例如影像伪影和文本错误)的敏感性严重损害了其临床适用性。目前,对这类噪声对医疗MLLMs影响的系统性分析仍未得到充分探索。此外,虽然一些研究探讨了MLLMs在通用领域的鲁棒性,但它们主要关注文本模态并依赖于昂贵的微调,不足以解决复杂的噪声模式并满足医疗领域严格的安全标准。为了弥补这一空白,本工作系统地分析了各种扰动对医疗MLLMs在视觉和文本两种模态上的影响。基于我们的发现,我们引入了一种免训练的内在增强多模态校准(IMC)框架,该框架遵循感知-校准原则,利用MLLMs固有的去噪能力来增强跨模态鲁棒性。对于视觉模态,我们提出了一种扰动感知去噪校准(PDC)方法,它利用MLLMs自身的视觉编码器识别噪声模式并执行原型引导的特征校准。对于文本去噪,我们设计了一个自实例化多智能体系统(SMS),该系统利用MLLMs的自我评估能力,通过智能体的协作层次结构来提炼含噪文本。我们构建了一个包含11种噪声类型、跨图像和文本两种模态的基准,并在2个数据集上进行了评估。实验结果表明,我们的方法在多种模态上均达到了最先进的性能,显示出增强MLLMs在真实临床场景中鲁棒性的潜力。 |
| 2025-12-26 | Patch as Node: Human-Centric Graph Representation Learning for Multimodal Action Recognition | null | 尽管人体行为识别取得了显著成就,但融合RGB和骨骼模态的多模态方法仍然受限于其固有的异质性,未能充分利用两者之间的互补潜力。本文提出了PAN,这是首个用于多模态行为识别的以人为中心的图表示学习框架,其中包含人体关节的RGB图像块的token嵌入被表示为时空图。这种以人为中心的图建模范式抑制了RGB帧中的冗余,并与基于骨骼的方法良好对齐,从而实现了多模态特征更有效和语义一致的融合。由于token嵌入的采样严重依赖于2D骨骼数据,我们进一步提出了基于注意力的后校准,以在模型性能损失最小的情况下减少对高质量骨骼数据的依赖。为了探索PAN与基于骨骼方法集成的潜力,我们提出了两种变体:PAN-Ensemble,它采用双路径图卷积网络,随后进行后期融合;以及PAN-Unified,它在单个网络中执行统一的图表示学习。在三个广泛使用的多模态行为识别数据集上,PAN-Ensemble和PAN-Unified在其各自的多模态融合设置(即分别为独立建模和统一建模)中均达到了最先进(SOTA)的性能。 |
| 2025-12-26 | Flexible Multitask Learning with Factorized Diffusion Policy | null | 多任务学习由于机器人动作分布的高度多模态和多样性而带来了严峻挑战。然而,将策略有效拟合到这些复杂的任务分布通常很困难,现有单一模型常常欠拟合动作分布并缺乏高效适应所需的灵活性。我们引入了一种新颖的模块化扩散策略框架,该框架将复杂动作分布分解为专用扩散模型的组合,每个模型捕捉行为空间中一个独特的子模式,从而形成更有效的整体策略。此外,这种模块化结构通过添加或微调组件,实现了对新任务的灵活策略适应,这从根本上缓解了灾难性遗忘。在模拟和真实世界机器人操作环境中,我们通过实验表明我们的方法持续优于强大的模块化和单一基线。 |
| 2025-12-26 | MMCTOP: A Multimodal Textualization and Mixture-of-Experts Framework for Clinical Trial Outcome Prediction | null | 针对高维生物医学信息学中多模态数据融合的挑战,我们提出了MMCTOP,一个多模态临床试验结果预测框架,该框架整合了异构的生物医学信号,涵盖(i)分子结构表示、(ii)协议元数据和长篇资格叙述,以及(iii)疾病本体。MMCTOP将模式引导的文本化和输入保真度验证与模态感知表示学习相结合,其中领域特定的编码器生成对齐的嵌入,这些嵌入由一个通过药物-疾病条件化的稀疏专家混合模型(SMoE)进行增强的Transformer骨干网络融合。这种设计明确支持跨治疗和设计子空间的专业化,同时通过top-k路由保持可扩展的计算。MMCTOP在基准数据集上,在精确率、F1分数和AUC方面优于单模态和多模态基线,并实现了持续改进;消融实验表明,模式引导的文本化和选择性专家路由对性能和稳定性有实质性贡献。我们还应用了温度标定来获得校准的概率,确保为下游决策支持提供可靠的风险估计。总之,MMCTOP通过结合受控叙述规范化、上下文条件化专家融合以及旨在生物医学信息学中实现可审计性和可重复性的操作保障,推动了多模态试验建模的进展。 |
| 2025-12-24 | Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models | link | 我们揭示了最先进视觉语言模型(VLMs)中存在的显著流行度偏差,这些模型在著名建筑上的准确率比普通建筑高出多达34%,这表明它们过度依赖记忆而非泛化理解能力。为了系统地探究这一点,我们引入了针对此任务的最大的开放基准:YearGuessr数据集,该数据集包含来自157个国家的55,546张建筑图像,具有多模态属性,并标注了其建造年份(1001-2024)的连续序数标签、GPS数据以及作为流行度代理的页面浏览量。利用该数据集,我们将建筑年份预测任务构建为序数回归,并引入了流行度感知区间准确率指标来量化这种偏差。我们对包括YearCLIP模型在内的30多个模型进行的基准测试证实,VLMs在流行且被记忆的项目上表现出色,但在未识别的主题上表现显著不佳,揭示了其推理能力中的一个关键缺陷。项目页面:https://sytwu.github.io/BeyondMemo/ |
| 2025-12-24 | Streaming Video Instruction Tuning | link | 我们提出Streamo,一个充当通用交互式助手的实时流媒体视频大语言模型。与现有仅专注于问答或字幕生成的在线视频模型不同,Streamo执行广泛的流媒体视频任务,包括实时旁白、动作理解、事件字幕生成、时序事件定位以及时间敏感的问答。为了开发这种多功能性,我们构建了Streamo-Instruct-465K,一个专为流媒体视频理解量身定制的大规模指令遵循数据集。该数据集涵盖多样化的时间上下文和多任务监督,从而实现跨异构流媒体任务的统一训练。在通过简化的流程对指令遵循数据集进行端到端训练后,Streamo在各种流媒体基准测试中展现出强大的时序推理、响应式交互和广泛的泛化能力。大量实验表明,Streamo弥合了离线视频感知模型与实时多模态助手之间的鸿沟,在连续视频流中向统一、智能的视频理解迈进了一步。 |
| 2025-12-24 | Your Reasoning Benchmark May Not Test Reasoning: Revealing Perception Bottleneck in Abstract Reasoning Benchmarks | null | 抽象与推理语料库(ARC)和ARC-AGI等推理基准被广泛用于评估人工智能的进展,并常被解读为衡量核心,即所谓的“流体”推理能力的探针。尽管对人类而言这些任务看似简单,但它们对前沿视觉-语言模型(VLMs)来说仍然具有挑战性,这种差距通常归因于机器推理能力的不足。我们对这种解释提出质疑并假设,这种差距主要源于视觉感知能力的局限,而非归因于归纳推理的缺陷。为了验证这一假设,我们引入了一个两阶段实验流程,该流程明确地将感知和推理分离。在感知阶段,每张图像都被独立地转换为自然语言描述,而在推理阶段,模型利用这些描述归纳并应用规则。这种设计防止了跨图像归纳信号的泄露,并将推理从感知瓶颈中分离出来。在Mini-ARC、ACRE和Bongard-LOGO这三个ARC风格的数据集上,我们通过比较两阶段流程与标准端到端单阶段评估,表明感知能力是导致观察到的性能差距的主要因素。对VLM输出中推理轨迹的手动检查进一步揭示,大约80%的模型失败源于感知错误。综上,这些结果表明,ARC风格的基准测试混淆了感知和推理的挑战,并且观察到的性能差距可能夸大了机器推理能力的不足。我们的发现强调,在评估机器智能进展时,需要采用将感知与推理分离的评估协议。 |
| 2025-12-24 | AnyAD: Unified Any-Modality Anomaly Detection in Incomplete Multi-Sequence MRI | null | 由于标注异常病例的稀缺性以及真实临床工作流程中关键成像模态的频繁缺失,脑部MRI中可靠的异常检测仍然具有挑战性。现有的单类别或多类别异常检测(AD)模型通常依赖固定的模态配置,需要重复训练,或者无法泛化到未见的模态组合,从而限制了其临床可扩展性。在这项工作中,我们提出了一个统一的任意模态AD框架,该框架能够在任意MRI模态可用性下执行鲁棒的异常检测和定位。该框架集成了双路径DINOv2编码器和特征分布对齐机制,能够统计学上将不完整模态特征与完整模态表示对齐,即使在模态严重缺失的情况下也能实现稳定推理。为了进一步增强语义一致性,我们引入了内在正常原型(INPs)提取器和INP引导解码器,它们仅重建正常解剖模式,同时自然地放大异常偏差。通过训练期间的随机模态掩蔽和间接特征补全,模型无需重新训练即可学会适应所有模态配置。在BraTS2018、MU-Glioma-Post和Pretreat-MetsToBrain-Masks数据集上进行的广泛实验表明,我们的方法在7种模态组合中持续超越了最先进的工业和医学AD基线,实现了卓越的泛化能力。本研究为现实世界中不完美的模态条件下的多模态医学AD建立了一个可扩展的范例。我们的源代码可在https://github.com/wuchangw/AnyAD获取。 |
| 2025-12-24 | LookPlanGraph: Embodied Instruction Following Method with VLM Graph Augmentation | link | 将大型语言模型(LLM)用作具身指令遵循任务规划器的方法已变得广泛。为了成功完成任务,LLM必须与机器人操作的环境进行接地。一种解决方案是使用包含所有必要信息的场景图。现代方法依赖于预构建的场景图,并假设所有任务相关信息在规划开始时都可用。然而,这些方法没有考虑到在图构建和任务执行之间可能发生的环境变化。我们提出了LookPlanGraph,这是一种利用由静态资产和对象先验组成的场景图的方法。在计划执行期间,LookPlanGraph通过验证现有先验或发现新实体来持续更新图中的相关对象。这是通过使用视觉语言模型处理代理的自我中心相机视图来实现的。我们在VirtualHome和OmniGibson模拟环境中进行了对象位置改变的实验,证明LookPlanGraph优于基于预定义静态场景图的方法。为了证明我们方法的实际适用性,我们还在真实世界环境中进行了实验。此外,我们引入了GraSIF(用于指令遵循的图场景)数据集及其自动化验证框架,该数据集包含源自SayPlan Office、BEHAVIOR-1K和VirtualHome RobotHow的514个任务。项目页面可在https://lookplangraph.github.io访问。 |
| 2025-12-24 | Leveraging Lightweight Entity Extraction for Scalable Event-Based Image Retrieval | null | 从自然语言描述中检索图像是计算机视觉和自然语言处理交叉领域的一项核心任务,在搜索引擎、媒体存档和数字内容管理方面具有广泛应用。然而,由于模糊或依赖上下文的查询、语言多样性以及对可扩展解决方案的需求,现实世界中的图文检索仍然充满挑战。在这项工作中,我们提出了一个轻量级的两阶段检索流程,该流程利用以事件为中心的实体提取,以从现实世界的图像描述中融入时间性和上下文信号。第一阶段使用基于显著实体的BM25执行高效的候选过滤,而第二阶段应用BEiT-3模型来捕获深层多模态语义并对结果进行重新排序。在OpenEvents v1基准上进行评估,我们的方法实现了0.559的平均精度,大幅优于现有基线。这些结果突出了将事件引导过滤与长文本视觉-语言建模相结合的有效性,以在复杂、现实世界的场景中实现准确高效的检索。我们的代码可在https://github.com/PhamPhuHoa-23/Event-Based-Image-Retrieval获取。 |
| 2025-12-24 | RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic | null | 由视觉-语言模型(VLM)驱动的具身智能体执行复杂现实世界任务的能力日益增强,但它们仍然容易受到可能触发不安全行为的危险指令的影响。运行时安全护栏在任务执行期间拦截危险动作,因其灵活性而提供了一个有前景的解决方案。然而,现有防御措施通常依赖于静态规则过滤器或提示词级别控制,难以解决动态、时间依赖且上下文丰富的环境中出现的隐性风险。为此,我们提出了RoboSafe,一种通过可执行的基于谓词的安全逻辑为具身智能体提供混合推理运行时安全保障的方法。RoboSafe在一个混合长短期安全记忆上集成了两种互补的推理过程。我们首先提出了一个后向反思推理模块,它持续回顾短期记忆中的近期轨迹,以推断时间安全谓词,并在检测到违规时主动触发重新规划。然后,我们提出了一个前向预测推理模块,它通过从长期安全记忆和智能体的多模态观测中生成上下文感知的安全谓词来预测即将到来的风险。这些组件共同形成了一种自适应的、可验证的安全逻辑,既可解释又可作为代码执行。在多个智能体上进行的大量实验表明,与领先的基线相比,RoboSafe显著减少了危险动作(风险发生率降低36.8%),同时保持了接近原始的任务性能。在物理机械臂上的真实世界评估进一步证实了其实用性。代码将在论文接收后发布。 |
| 2025-12-24 | Latent Implicit Visual Reasoning | null | 尽管大型多模态模型(LMMs)已取得显著进展,但它们在很大程度上仍以文本为中心,依赖语言作为其核心推理模态。因此,它们在处理以视觉为主的推理任务时能力有限。最近的方法试图通过使用辅助图像、深度图或图像裁剪来监督中间视觉步骤,以解决这一问题。然而,这些策略对“有用”的视觉抽象形式施加了限制性先验,增加了高昂的标注成本,并且难以在不同任务之间泛化。为了解决这一关键限制,我们提出了一种任务无关的机制,该机制训练LMMs在没有显式监督的情况下发现并使用视觉推理token。这些token进行全局注意力,并以任务自适应的方式重新编码图像,使模型能够在无需人工设计的监督下提取相关的视觉信息。我们的方法优于直接微调,在各种以视觉为中心的任务上(包括那些中间抽象难以明确指定的任务)取得了最先进的结果,同时也能泛化到多任务指令微调。 |
| 2025-12-24 | Human Motion Estimation with Everyday Wearables | link | 尽管基于穿戴设备的人体运动估计对于XR交互等应用至关重要,但现有方法常面临佩戴舒适性差、硬件成本高昂以及标定繁琐等问题,这些因素阻碍了其在日常生活中的普及。为解决这些挑战,我们提出了EveryWear,这是一种轻量且实用的人体动作捕捉方法,完全基于日常穿戴设备:智能手机、智能手表、耳机以及配备一个前置摄像头和两个下置摄像头的智能眼镜,使用前无需显式校准。我们发布了Ego-Elec,这是一个9小时的真实世界数据集,涵盖17种不同的室内外环境中的56种日常活动,并附带由动作捕捉(MoCap)提供的3D真值标注,以促进该方向的扎实研究和基准测试。我们的方法采用了一种多模态教师-学生框架,该框架整合了来自第一人称视角摄像头的视觉线索与来自消费级设备的惯性信号。通过直接在真实世界数据而非合成数据上进行训练,我们的模型有效消除了限制先前工作的模拟到现实的鸿沟。实验表明,我们的方法优于基线模型,验证了其在实用全身运动估计方面的有效性。 |
| 2025-12-24 | A Multimodal Human-Centered Framework for Assessing Pedestrian Well-Being in the Wild | null | 行人福祉是可持续城市交通和宜居城市设计中一个关键但很少被衡量的组成部分。现有评估行人环境的方法通常依赖于静态的、基于基础设施的指标或回顾性调查,这忽视了日常步行体验的动态、主观和心理生理维度。本文介绍了一个多模态、以人为中心的框架,用于通过整合连续生理传感、地理空间追踪和利用经验抽样法收集的瞬时自我报告这三种互补数据流来评估自然环境中的行人福祉。该框架将行人体验概念化为一种三角测量方法,从而能够全面理解城市环境如何影响福祉。随后,通过在大费城地区进行的一项自然主义案例研究展示了我们框架的实用性,在该研究中,参与者在日常活动中佩戴研究级可穿戴传感器并携带支持GPS的智能手机。自主神经系统活动的生理指标,包括心率变异性和皮电活动,与空间轨迹以及现场自我报告的压力、情感和感知基础设施状况同步。结果表明,在主观体验和生理反应两方面都存在显著的个体间和个体内心变异性,并且存在与交通暴露、行人基础设施质量和环境围合度相关的背景依赖性模式。研究结果还表明,常用步行性指数可能无法完全捕捉行人福祉的体验维度。通过实现对行人体验的真实世界、多模态测量,所提出的框架提供了一种可扩展和可迁移的方法,以推动以人为中心的城市分析。 |
| 2025-12-23 | LongVideoAgent: Multi-Agent Reasoning with Long Videos | null | 多模态大语言模型和利用工具进行长视频问答的系统近期取得的进展,预示着对长达一小时的剧集进行推理的潜力。然而,许多方法仍将内容压缩为有损摘要或依赖有限的工具集,削弱了时间定位能力并错失了细粒度线索。我们提出了一个多智能体框架,其中一个主控大语言模型协调一个定位智能体来定位与问题相关的片段,以及一个视觉智能体来提取目标文本观测结果。主控智能体在步数限制内进行规划,并通过强化学习进行训练,以鼓励简洁、正确且高效的多智能体协作。这种设计有助于主控智能体通过定位关注相关片段,用视觉细节补充字幕,并产生可解释的轨迹。在我们提出的LongTVQA和LongTVQA+(这些是从TVQA/TVQA+聚合而来的剧集级数据集)上,我们的多智能体系统显著优于强大的非智能体基线。实验还表明,强化学习进一步增强了训练过的智能体的推理和规划能力。代码和数据将在https://longvideoagent.github.io/分享。 |
| 2025-12-23 | SpatialTree: How Spatial Abilities Branch Out in MLLMs | null | 认知科学表明,空间能力从感知到推理和交互逐步发展。然而在多模态大语言模型(MLLM)中,这种层级结构尚未被充分理解,因为大多数研究只关注狭窄的任务集。我们引入了SpatialTree,这是一个受认知科学启发的层级结构,它将空间能力组织成四个层级:低级感知(L1)、心理映射(L2)、模拟(L3)和智能体能力(L4)。基于此分类法,我们构建了首个以能力为中心的层级基准,全面评估了主流MLLM的27种子能力。评估结果揭示了一个清晰的结构:L1技能大致正交,而更高级别的技能则强相关,表明相互依赖性逐渐增强。通过有针对性的监督微调,我们揭示了一个令人惊讶的迁移动态——L1内部存在负迁移,但从低级到高级能力存在强大的跨层级迁移,并伴有显著的协同作用。最后,我们探索了如何改进整个层级结构。我们发现鼓励广泛“思考”的朴素强化学习并不可靠:它有助于复杂推理但损害直观感知。我们提出了一种简单的自动思考策略,该策略抑制不必要的推敲,使强化学习能够持续提高所有层级的性能。通过构建SpatialTree,我们为理解和系统地扩展MLLM中的空间能力提供了一个概念验证框架。 |
| 2025-12-23 | Cube Bench: A Benchmark for Spatial Visual Reasoning in MLLMs | null | 我们引入了Cube Bench,这是一个魔方基准,用于评估多模态大语言模型(MLLM)的空间和序列推理能力。该基准将性能分解为五项技能:(i) 从图像和文本中重建魔方六面,(ii) 选择最佳的下一步操作,(iii) 在不实际执行的情况下预测候选操作的结果,(iv) 执行多步骤计划并在错误中恢复,以及(v) 检测并修正自身的错误。利用一组共享的打乱魔方状态、相同的提示和解析器以及一个单一的到解距离指标,我们并排比较了近期的MLLM,并考察了其性能随打乱深度的变化。在七个MLLM中,准确率随深度急剧下降;一旦轨迹停滞或偏离,模型很少能恢复,并且高面重建准确率并不能保证有效的动作选择或多步执行能力。出现了一个显著的闭源与开源模型差距:最强的闭源模型在单步感知任务和多步控制任务上均处于领先地位,而开源模型在最困难的设置下表现接近随机猜测;然而,即使是最好的MLLM在魔方复杂度更高时性能也会下降。通过反思式思维进行的简单自我纠正带来了适度的提升,但也可能导致过度思考。Cube Bench提供了一个紧凑、可复现的探针,用于探测MLLM中的序列空间推理能力。 |
| 2025-12-23 | LightTact: A Visual-Tactile Fingertip Sensor for Deformation-Independent Contact Sensing | null | 接触通常发生在没有宏观表面形变的情况下,例如与液体、半液体或超软材料的交互过程中。大多数现有触觉传感器依赖形变来推断接触,使得此类轻接触交互难以可靠地感知。为解决此问题,我们提出LightTact,这是一种视觉-触觉指尖传感器,它通过一种与形变无关的基于光学原理的方法使接触直接可见。LightTact采用一种环境光阻断光学配置,该配置在非接触区域抑制外部光和内部照明,同时仅传输在真实接触点产生的漫射光。因此,LightTact生成高对比度原始图像,其中非接触像素保持近乎黑色(平均灰度值小于3),而接触像素保留接触表面的自然外观。在此基础上,LightTact实现了精确的像素级接触分割,该分割对材料特性、接触力、表面外观和环境光照均具有鲁棒性。我们进一步将LightTact集成到机械臂上,并展示了由极轻接触驱动的操作行为,包括水蔓延、面霜蘸取和薄膜交互。最后,我们展示了LightTact的空间对齐视觉-触觉图像可被现有视觉-语言模型直接解释,从而实现用于机器人分拣的电阻值推理。 |
| 2025-12-23 | FlashVLM: Text-Guided Visual Token Selection for Large Multimodal Models | null | 大型视觉-语言模型(VLM)通常每张图像或每帧视频处理数百或数千个视觉 token,这会产生二次注意力成本和大量冗余。现有的 token 削减方法通常会忽略文本查询或依赖深度注意力图,这些图在激进剪枝下的不稳定性会导致语义对齐退化。我们提出了 FlashVLM,一个文本引导的视觉 token 选择框架,它能动态地将视觉输入适应于查询。FlashVLM 不依赖噪声注意力权重,而是在语言模型空间中计算投影图像 token 和归一化文本嵌入之间的显式跨模态相似性。这种外部相关性通过对数域加权和温度控制的锐化与内部视觉显著性融合。此外,一个多样性保持分区保留了最小但具代表性的背景 token 集合,以维持全局上下文。在相同的 token 预算和评估协议下,FlashVLM 实现了超越无损压缩,在 LLaVA 1.5 上剪枝高达 77.8% 的视觉 token 的同时,略微超越了未剪枝基线,并且在 94.4% 的压缩率下仍保持 92.8% 的准确率。对 14 个图像和视频基准的大量实验表明,FlashVLM 在主流 VLM 中实现了最先进的效率-性能权衡,同时保持了强大的鲁棒性和泛化能力。 |
| 2025-12-23 | Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models | null | 视觉语言模型 (VLM) 擅长通用理解,但在动态空间推理 (DSR) 方面仍然薄弱,即推理物体几何形状和关系在3D空间中随时间演变的能力,这主要是由于缺乏可扩展的4D感知训练资源。为了弥补数据集、基准和模型方面的这一差距,我们引入了DSR Suite。首先,我们提出了一种自动化流程,用于从真实世界视频中为DSR生成多项选择题-答案对。通过利用现代视觉基础模型,该流程提取丰富的几何和运动信息,包括相机姿态、局部点云、物体掩码、方向和3D轨迹。这些几何线索使得能够构建用于学习的DSR-Train以及进一步经过人工精炼的用于评估的DSR-Bench。与以往工作相比,我们的数据强调 (i) 真实世界视频源,(ii) 物体和场景级别的3D要求,(iii) 视点变换,(iv) 多物体交互,以及 (v) 细粒度的、程序性的答案。除了数据,我们提出了一种轻量级的几何选择模块 (GSM),以无缝地将几何先验知识整合到VLM中,它凝练问题语义并从预训练的4D重建先验知识中提取与问题相关的知识,形成一组紧凑的几何标记。这种有针对性的提取避免了用不相关的知识淹没模型。实验表明,将DSR-Train和GSM整合到Qwen2.5-VL-7B中,显著增强了其动态空间推理能力,同时在通用视频理解基准上保持了准确性。 |
| 2025-12-23 | Multi-Grained Text-Guided Image Fusion for Multi-Exposure and Multi-Focus Scenarios | null | 图像融合旨在从一对在挑战性条件下(例如不同的曝光水平或焦深)捕获的输入图像中合成一张高质量图像。一个核心挑战在于有效处理输入图像之间动态范围和焦深方面的差异。随着视觉-语言模型的出现,近期方法引入文本描述作为辅助指导以提升融合质量。然而,简单地引入粗粒度描述阻碍了对细粒度细节的理解,并对精确的跨模态对齐提出了挑战。为了解决这些局限性,我们提出了多粒度文本引导图像融合(MTIF),这是一种具有三个关键设计的新颖融合范式。首先,它引入了多粒度文本描述,分别捕获细粒度细节、结构线索和语义内容,通过一个分层跨模态调制模块指导图像融合。其次,它在每个粒度上引入监督信号,以促进视觉和文本特征之间的对齐,并增强辅助文本的效用。第三,它采用了一个显著性驱动的丰富模块,用密集的语义内容扩充训练数据,进一步加强跨模态调制和对齐。大量实验表明,MTIF在多曝光和多焦点图像融合任务上均始终优于先前方法。 |
| 2025-12-23 | Advancing Multimodal Teacher Sentiment Analysis:The Large-Scale T-MED Dataset & The Effective AAM-TSA Model | null | 教师的情绪状态在教育场景中至关重要,深刻影响着教学效能、学生参与度和学习成绩。然而,现有研究往往未能准确捕捉教师的情绪,原因在于其表演性质,并且忽视了教学信息对情绪表达的关键影响。本文通过相应地构建数据集和模型,系统地研究了教师情感分析。我们构建了首个大规模教师多模态情感分析数据集T-MED。为了确保标注的准确性和效率,我们采用了人机协作标注流程。T-MED数据集包含来自250个真实课堂的14,938个教师情感数据实例,涵盖从K-12教育到高等教育的11个学科,整合了多模态文本、音频、视频和教学信息。此外,我们提出了一种新颖的基于非对称注意力的多模态教师情感分析模型AAM-TSA。AAM-TSA引入了非对称注意力机制和分层门控单元,以实现差异化的跨模态特征融合和精确的情感分类。实验结果表明,AAM-TSA在T-MED数据集上的准确性和可解释性方面显著优于现有最先进的方法。 |
| 2025-12-23 | Bridging Modalities and Transferring Knowledge: Enhanced Multimodal Understanding and Recognition | null | 本手稿探讨了多模态对齐、翻译、融合和迁移,以增强机器对复杂输入的理解。我们将工作分为五个章节,每个章节都解决了多模态机器学习中独特的挑战。第三章介绍了空间推理Bert,用于将基于文本的空间关系转换为剪贴画之间的二维排列。这使得将空间语言有效解码为视觉表示成为可能,为与人类空间理解对齐的自动化场景生成铺平了道路。第四章提出了一种将医学文本翻译成解剖图谱中特定三维位置的方法。我们引入了一个利用医学术语空间共现的损失函数来创建可解释的映射,显著增强了医学文本的导航性。第五章致力于将结构化文本翻译成知识图谱中的规范事实。我们开发了一个将自然语言与实体和谓词关联的基准,解决了文本提取中的歧义,以提供更清晰、可操作的见解。第六章探讨了用于组合动作识别的多模态融合方法。我们提出了一种融合视频帧和物体检测表示的方法,提高了识别的鲁棒性和准确性。第七章研究了用于以自我为中心的动作识别的多模态知识迁移。我们展示了多模态知识蒸馏如何使仅RGB模型能够模拟基于多模态融合的能力,从而在保持性能的同时降低计算需求。这些贡献推进了空间语言理解、医学文本解释、知识图谱丰富和动作识别的方法,增强了计算系统处理各种应用中复杂多模态输入的能力。 |
| 2025-12-23 | UTDesign: A Unified Framework for Stylized Text Editing and Generation in Graphic Design Images | null | AI辅助平面设计已成为自动化创建和编辑海报、横幅和广告等设计元素的强大工具。尽管基于扩散的文本到图像模型在视觉内容生成方面展现出强大能力,但其文本渲染性能,特别是对于小尺寸排版和非拉丁文字,仍存在局限。在本文中,我们提出了UTDesign,一个用于设计图像中高精度风格化文本编辑和条件文本生成的统一框架,支持英文和中文脚本。我们的框架引入了一种新颖的基于DiT的文本风格迁移模型,该模型从头开始在一个合成数据集上训练,能够生成保留参考字形风格的透明RGBA文本前景。我们通过在一个精心策划的、带有详细文本标注的数据集上训练多模态条件编码器,将该模型进一步扩展为一个条件文本生成框架,从而实现根据背景图像、提示和布局规范进行准确且风格一致的文本合成。最后,我们通过整合预训练的文本到图像(T2I)模型和一个基于MLLM的布局规划器,将我们的方法整合到一个全自动的文本到设计(T2D)流程中。大量实验表明,UTDesign在风格一致性和文本准确性方面在开源方法中达到了最先进的性能,并且与专有商业方法相比也展现出独特的优势。本文的代码和数据可在https://github.com/ZYM-PKU/UTDesign获取。 |
| 2025-12-19 | Adversarial Robustness of Vision in Open Foundation Models | null | 随着深度学习的普及,理解AI系统识别物体的方式变得越来越困难。因此,攻击者可能会通过在图像中添加未曾见过的元素来修改图像,从而混淆AI对实体的识别。本文因此研究了LLaVA-1.5-13B和Meta的Llama 3.2 Vision-8B-2的对抗鲁棒性。这些模型针对视觉输入模态在非目标PGD(投影梯度下降)攻击下进行了测试,并在Visual Question Answering (VQA) v2数据集子集上进行了实证评估。这些对抗攻击的结果随后使用标准VQA准确率指标进行量化。此次评估随后与LLaVA和Llama 3.2 Vision的准确率下降(准确率跌幅)进行了比较。一个主要发现是,Llama 3.2 Vision尽管在此设置下基线准确率较低,但在攻击下表现出比LLaVA更小的性能下降,尤其是在较高扰动水平下。总的来说,这些发现证实视觉模态是降低当代开源VLM(包括Meta的Llama 3.2 Vision)性能的一个可行攻击向量。此外,它们强调对抗鲁棒性不一定与标准基准性能直接相关,并且可能受到底层架构和训练因素的影响。 |
| 2025-12-19 | RadarGen: Automotive Radar Point Cloud Generation from Cameras | null | 我们提出了RadarGen,这是一种扩散模型,用于从多视角相机图像中合成逼真的车载雷达点云。RadarGen通过以鸟瞰图形式表示雷达测量数据,将高效的图像潜在扩散适应到雷达领域,该鸟瞰图形式编码了空间结构以及雷达散射截面(RCS)和多普勒属性。一个轻量级的恢复步骤从生成的地图中重建点云。为了使生成与视觉场景更好地对齐,RadarGen整合了从预训练基础模型中提取的鸟瞰图对齐深度、语义和运动线索,这些线索指导随机生成过程产生物理上合理的雷达模式。以图像为条件使得该方法原则上与现有视觉数据集和仿真框架广泛兼容,为多模态生成仿真提供了可扩展的方向。对大规模驾驶数据的评估表明,RadarGen捕获了特征雷达测量分布,并缩小了与在真实数据上训练的感知模型之间的差距,标志着向跨感知模态的统一生成仿真迈进了一步。 |
| 2025-12-19 | Weighted Stochastic Differential Equation to Implement Wasserstein-Fisher-Rao Gradient Flow | null | 基于分数的扩散模型目前代表了连续生成建模的最新技术水平。这些方法通常通过过阻尼或欠阻尼的Ornstein--Uhlenbeck型随机微分方程来构建,其中采样由确定性漂移和布朗扩散的组合驱动,从而在环境空间中产生连续的粒子轨迹。尽管这种动力学对强对数凹目标分布具有指数收敛保证,但众所周知,在存在非凸或多模态景观(例如双势阱)的情况下,它们的混合速率会呈指数级恶化。由于许多实际的生成建模任务涉及高度非对数凹的目标分布,最近大量工作致力于开发超越经典扩散动力学、能够改进探索的采样方案。一个有前景的研究方向是利用信息几何工具,通过受控的质量重加权机制来增强基于扩散的采样器。这种视角自然引出了Wasserstein--Fisher--Rao (WFR) 几何,它将样本空间中的传输与概率测度空间上的垂直(反应)动力学相结合。在这项工作中,我们通过引入显式修正项来提出这种重加权机制,并展示了如何利用Feynman--Kac表示通过加权随机微分方程实现它们。我们的研究对基于WFR的采样动力学进行了初步但严谨的探究,旨在阐明其几何和算子理论结构,为未来的理论和算法发展奠定基础。 |
| 2025-12-19 | Visually Prompted Benchmarks Are Surprisingly Fragile | null | 评估视觉语言模型(VLM)的一个关键挑战是测试模型独立于其文本先验知识分析视觉内容的能力。最近的基准测试,例如BLINK,通过视觉提示来探究视觉感知,其中关于视觉内容的问题与问题所指的坐标配对,并且这些坐标在图像本身中明确标记。尽管这些基准测试是VLM评估的重要组成部分,但我们发现现有模型对视觉提示中看似不相关的细节出人意料地脆弱:仅仅将视觉标记从红色更改为蓝色就可以完全改变模型在排行榜上的排名。通过在两个视觉提示任务上评估九个常用的开源和闭源VLM,我们展示了基准设置中的细节,包括视觉标记设计和数据集大小,如何对模型性能和排行榜排名产生显著影响。这些影响甚至可以被利用来使弱模型超越强模型;例如,稍微增加视觉标记的大小,就能使开源的InternVL3-8B与Gemini 2.5 Pro等大得多的专有模型排名持平或更优。我们进一步表明,在基准测试中经常被忽略的低级推理选择,例如API调用中的JPEG压缩级别,也可能导致模型阵容的变化。这些细节对视觉提示基准的影响远大于对传统语义VLM评估的影响。为了减轻这种不稳定性,我们整理现有数据集,创建了VPBench,这是一个更大的视觉提示基准,包含16种视觉标记变体。VPBench和附加分析工具已在https://lisadunlap.github.io/vpbench/发布。 |
| 2025-12-19 | AnyTask: an Automated Task and Data Generation Framework for Advancing Sim-to-Real Policy Learning | null | 通用机器人学习仍受数据限制:大规模、多样化、高质量的交互数据在现实世界中收集成本高昂。虽然仿真已成为扩展数据收集的一种有前景的方式,但其相关任务,包括仿真任务设计、任务感知场景生成、专家演示合成和虚实迁移,仍然需要大量人工投入。我们提出了AnyTask,一个自动化框架,它将大规模并行GPU仿真与基础模型相结合,以设计多样化的操作任务并合成机器人数据。我们介绍了三个AnyTask智能体,用于生成旨在解决尽可能多任务的专家演示:1) ViPR,一种新颖的任务与运动规划智能体,采用VLM循环并行优化;2) ViPR-Eureka,一种强化学习智能体,具有生成的密集奖励和LLM引导的接触采样;3) ViPR-RL,一种混合规划与学习方法,仅利用稀疏奖励共同生成高质量演示。我们在生成数据上训练行为克隆策略,在仿真中验证它们,并将其直接部署到真实机器人硬件上。这些策略泛化到新颖的物体姿态,在一系列现实世界的抓取与放置、抽屉开启、接触丰富的推移和长周期操作任务中实现了44%的平均成功率。我们的项目网站是https://anytask.rai-inst.com。 |
| 2025-12-19 | AdaptPrompt: Parameter-Efficient Adaptation of VLMs for Generalizable Deepfake Detection | null | 图像生成领域的最新进展导致高度逼真合成媒体的广泛普及,增加了可靠深度伪造检测的难度。一个关键挑战是泛化能力,因为在狭窄类别生成器上训练的检测器在面对未见模型时往往会失效。在这项工作中,我们通过利用大型视觉-语言模型,特别是CLIP,来识别跨越不同生成技术的合成内容,从而解决对可泛化检测的迫切需求。首先,我们引入了Diff-Gen,一个大规模基准数据集,包含10万个扩散生成的伪造图像,这些图像捕获了与传统GAN数据集不同的广泛频谱伪影。在Diff-Gen上训练的模型表现出更强的跨领域泛化能力,尤其是在以前未见的图像生成器上。其次,我们提出了AdaptPrompt,一个参数高效的迁移学习框架,它联合学习任务特定的文本提示和视觉适配器,同时保持CLIP骨干网络冻结。我们通过层消融实验进一步表明,剪枝视觉编码器的最后一个Transformer块增强了高频生成伪影的保留,显著提高了检测准确性。我们的评估涵盖了25个具有挑战性的测试集,涵盖了由GAN、扩散模型和商业工具生成的合成内容,在标准和跨领域场景中均建立了新的最先进水平。我们进一步通过少样本泛化(使用低至320张图像)和来源归因展示了该框架的多功能性,从而实现在封闭集设置中精确识别生成器架构。 |
| 2025-12-19 | Generative Human-Object Interaction Detection via Differentiable Cognitive Steering of Multi-modal LLMs | null | 人物-物体交互 (HOI) 检测旨在定位人物-物体对及其间的交互。现有方法在封闭世界假设下运行,将该任务视为对小型预定义动词集的分类问题,这使其难以泛化到真实世界中未见或模糊交互的长尾问题。尽管最近的多模态大语言模型 (MLLMs) 具备开放词汇理解所需的丰富世界知识,但由于对其进行微调的计算成本过高,它们仍然与现有HOI检测器解耦。为解决这些限制,我们提出了\GRASP-HO},一个新颖的生成式推理与可控感知框架,它将HOI检测从封闭集分类任务重新定义为开放词汇生成问题。为了连接视觉与认知,我们首先提取混合交互表示,然后设计了一个轻量级可学习认知引导通路 (CSC) 模块,将细粒度视觉证据注入到冻结的MLLM中以进行有效推理。为解决基于分类的HOI数据集与开放词汇生成模型之间的监督不匹配问题,我们引入了一种混合指导策略,该策略结合了语言建模损失和辅助分类损失,从而在不牺牲生成灵活性的前提下实现判别性接地。实验证明了最先进的封闭集性能和强大的零样本泛化能力,实现了一个统一的范式,该范式无缝连接了判别性感知和生成式推理,以进行开放世界HOI检测。 |
| 2025-12-19 | PathFLIP: Fine-grained Language-Image Pretraining for Versatile Computational Pathology | null | 尽管视觉-语言模型(VLM)在计算病理学(CPath)中取得了显著进展,但全切片图像(WSI)的千兆像素级别和空间异质性持续对多模态理解构成挑战。现有对齐方法难以捕捉一张切片中数千个图像块的文本描述与视觉线索之间的细粒度对应关系,从而损害了它们在下游任务上的性能。在本文中,我们提出了PathFLIP(病理学细粒度语言-图像预训练),一个用于全局WSI解读的新颖框架。PathFLIP将切片级标题分解为区域级子标题,并生成文本条件区域嵌入,以促进精确的视觉-语言基础。通过利用大语言模型(LLM),PathFLIP可以无缝遵循多样化的临床指令并适应多变的诊断环境。此外,它在多种范式下展现出多功能能力,有效处理切片级分类和检索、细粒度病灶定位以及指令遵循。大量实验表明,PathFLIP在四个代表性基准上优于现有的大规模病理学VLM,同时所需训练数据显著减少,为临床实践中细粒度、指令感知的WSI解读铺平了道路。 |
| 2025-12-19 | HeadHunt-VAD: Hunting Robust Anomaly-Sensitive Heads in MLLM for Tuning-Free Video Anomaly Detection | link | 视频异常检测(VAD)旨在定位视频中偏离正常模式的事件。传统方法通常依赖大量标注数据并产生高计算成本。最近基于多模态大型语言模型(MLLM)的免调优方法,通过利用其丰富的世界知识,提供了一种有前景的替代方案。然而,这些方法通常依赖文本输出,这会引入信息丢失、表现出正常性偏差并遭受提示敏感性问题,使其不足以捕获细微的异常线索。为了解决这些限制,我们提出了HeadHunt-VAD,这是一种新颖的免调优VAD范式,它通过直接寻找冻结MLLM中鲁棒的异常敏感内部注意力头来绕过文本生成。我们方法的核心是一个鲁棒注意力头识别模块,它通过对显著性和稳定性进行多准则分析,系统地评估所有注意力头,从而识别出一个在不同提示下始终具有判别性的稀疏注意力头子集。来自这些专家注意力头的特征随后被送入一个轻量级异常评分器和一个时间定位器,从而实现高效准确且具有可解释输出的异常检测。广泛的实验表明,HeadHunt-VAD在两个主要的VAD基准上,在免调优方法中取得了最先进的性能,同时保持了高效率,验证了MLLM中的注意力头层面探测是真实世界异常检测的一个强大而实用的解决方案。 |
| 2025-12-19 | Enabling Disaggregated Multi-Stage MLLM Inference via GPU-Internal Scheduling and Resource Sharing | null | 多模态大语言模型(MLLM)通过三阶段流水线——多模态预处理、视觉编码和LLM推理——扩展了LLM的视觉理解能力。尽管这些阶段增强了功能,但也引入了显著的系统瓶颈。首先,多模态预处理(尤其是视频解码)常常在“首个词元生成时间”(Time-to-First-Token, TTFT)中占据主导地位。大多数系统依赖基于CPU的解码,这严重限制了吞吐量,而现有的基于GPU的方法则优先考虑吞吐量优先的并行性,未能满足MLLM推理对延迟敏感的要求。其次,视觉编码器是一个独立的、计算密集型阶段,它生成视觉嵌入,并且无法与LLM预填充(prefill)或解码进行批处理。这种异构性导致阶段间阻塞并增加了词元生成延迟。即使部署在独立的GPU上,这些阶段也未能充分利用可用的计算和内存资源,降低了整体利用率并限制了系统吞吐量。为了解决这些挑战,我们提出了FlashCodec和UnifiedServe,这是两个互补的设计,共同优化了端到端的MLLM流水线。FlashCodec通过协作式多GPU视频解码加速多模态预处理阶段,在保持高吞吐量的同时减少了解码延迟。UnifiedServe通过逻辑上解耦视觉到文本和推理阶段的执行来消除阶段间阻塞,同时物理上共享GPU资源以最大化GPU系统利用率,从而优化了这些阶段。通过精心编排跨阶段执行并最小化干扰,我们提出的框架共同形成了一个端到端优化的堆栈,与现有最先进的系统相比,能够服务多达3.0倍的请求,或强制执行1.5倍更严格的服务水平目标(SLO),同时实现高达4.4倍的吞吐量提升。 |
| 2025-12-18 | The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text | null | 我们提出WorldCanvas,这是一个用于可提示世界事件的框架,它通过结合文本、轨迹和参考图像来实现丰富的、用户导向的模拟。与纯文本方法以及现有的轨迹控制图像到视频方法不同,我们的多模态方法结合了轨迹(编码运动、时间安排和可见性)、自然语言(用于语义意图)和参考图像(用于对象身份的视觉基础),从而能够生成连贯的、可控的事件,这些事件包括多智能体交互、对象进入/退出、参考指导的外观以及反直觉事件。生成的视频不仅展现出时间连贯性,而且展现出涌现一致性,即使在暂时消失的情况下也能保持对象身份和场景。通过支持富有表现力的世界事件生成,WorldCanvas将世界模型从被动预测器提升为交互式、用户塑造的模拟器。我们的项目页面可在以下网址访问:https://worldcanvas.github.io/。 |
| 2025-12-18 | Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification | null | 传统多模态大型语言模型(MLLM)的评估方法缺乏可解释性,且往往不足以充分揭示不同模型之间显著的能力差距。为解决此问题,我们引入了AuditDM,一个自动化框架,通过审计MLLM的分歧来主动发现并纠正其失效模式。AuditDM通过强化学习微调一个MLLM作为审计器,以生成具有挑战性的问题和反事实图像,从而最大化目标模型之间的分歧。训练完成后,该审计器会发现多样化、可解释的示例,这些示例揭示了模型弱点,并作为免标注数据用于纠正。当应用于Gemma-3和PaliGemma-2等最先进(SoTA)模型时,AuditDM发现了20多种不同的故障类型。基于这些发现进行微调持续改进了所有模型在16个基准测试中的表现,并使一个3B模型超越了其28B的同类模型。我们的结果表明,随着数据扩展达到边际效益递减,针对性的模型审计为模型诊断和改进提供了一条有效的途径。 |
| 2025-12-18 | AdaTooler-V: Adaptive Tool-Use for Images and Videos | null | 最近的进展表明,多模态大语言模型 (MLLM) 受益于结合视觉工具交互的多模态交错思维链 (CoT)。然而,现有的开源模型经常表现出盲目使用工具的推理模式,即使在不必要时也调用视觉工具,这显著增加了推理开销并降低了模型性能。为此,我们提出了AdaTooler-V,一个通过判断视觉问题是否真正需要工具来执行自适应工具使用的多模态大语言模型 (MLLM)。首先,我们引入了AT-GRPO,一种强化学习算法,它根据每个样本的工具效益得分 (Tool Benefit Score) 自适应地调整奖励尺度,鼓励模型仅在工具提供真正改进时才调用。此外,我们构建了两个数据集来支持训练:AdaTooler-V-CoT-100k 用于 SFT 冷启动,以及 AdaTooler-V-300k 用于强化学习 (RL),其中包含单图像、多图像和视频数据上的可验证奖励。跨十二个基准的实验证明了AdaTooler-V强大的推理能力,在各种视觉推理任务中优于现有方法。值得注意的是,AdaTooler-V-7B 在高分辨率基准 V* 上达到了 89.8% 的准确率,超越了商业专有模型 GPT-4o 和 Gemini 1.5 Pro。所有代码、模型和数据均已发布。 |
| 2025-12-18 | SFTok: Bridging the Performance Gap in Discrete Tokenizers | null | 多模态模型的最新进展凸显了图像标记化在高分辨率图像生成中的关键作用。通过将图像压缩成紧凑的潜在表示,标记器使生成模型能够在低维空间中运行,从而提高计算效率并降低复杂性。离散标记器天然契合自回归范式,但仍落后于连续标记器,限制了它们在多模态系统中的应用。为了解决这个问题,我们提出了SFTok,这是一种离散标记器,它结合了多步迭代机制以实现精确重建。通过整合自强制引导视觉重建和去偏和拟合训练策略,SFTok解决了多步过程中的训练-推理不一致性,显著提高了图像重建质量。在每张图像仅64个标记的高压缩率下,SFTok在ImageNet上实现了最先进的重建质量(rFID = 1.21),并在类别到图像生成任务中展现出卓越的性能(gFID = 2.29)。 |
| 2025-12-18 | MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning | null | 家居环境中的移动操作器必须同时具备导航和操作能力。这需要一个紧凑、语义丰富的场景表示,能够捕捉物体的位置、它们的功能以及哪些部件是可操作的。场景图是一个自然的选择,然而,先前的工作常常将空间关系和功能关系分离,将场景视为没有物体状态或时间更新的静态快照,并且忽略了对完成当前任务最相关的信息。为了解决这些局限性,我们引入了MomaGraph,这是一种面向具身智能体的统一场景表示,它集成了空间功能关系和部件级别的交互元素。然而,推进这种表示需要适用的数据和严格的评估,而这些在很大程度上是缺失的。因此,我们贡献了MomaGraph-Scenes,这是首个在家居环境中大规模丰富标注的任务驱动场景图数据集,以及MomaGraph-Bench,一个涵盖从高层规划到细粒度场景理解六种推理能力的系统性评估套件。在此基础上,我们进一步开发了MomaGraph-R1,这是一个基于MomaGraph-Scenes并采用强化学习训练的7B视觉语言模型。MomaGraph-R1能够预测面向任务的场景图,并作为“图然后规划”框架下的零样本任务规划器。大量实验表明,我们的模型在开源模型中取得了最先进的结果,在基准测试中达到了71.6%的准确率(比最佳基线高出11.4%),同时在公共基准测试中表现出泛化能力,并有效地迁移到真实机器人实验中。 |
| 2025-12-18 | VIVA: VLM-Guided Instruction-Based Video Editing with Reward Optimization | null | 基于指令的视频编辑旨在根据自然语言指令修改输入视频,同时保持内容保真度和时间连贯性。然而,现有的基于扩散的方法通常使用简单编辑操作的成对数据进行训练,这从根本上限制了它们泛化到多样化、复杂和真实世界指令的能力。为解决这一泛化差距,我们提出了VIVA,一个可扩展的基于指令的视频编辑框架,它利用VLM引导的编码和奖励优化。首先,我们引入了一个基于VLM的指令器,它将文本指令、源视频的第一帧以及一个可选的参考图像编码成视觉接地的指令表示,为扩散Transformer骨干网络提供了细粒度的空间和语义上下文。其次,我们提出了一个后训练阶段Edit-GRPO,它将群体相对策略优化(Group Relative Policy Optimization)适应到视频编辑领域,通过使用相对奖励直接优化模型以实现指令忠实、内容保持和美观的编辑。此外,我们提出了一个数据构建流程,旨在合成生成多样化、高保真的基本编辑操作的成对视频-指令数据。大量实验表明,VIVA在指令遵循、泛化能力和编辑质量方面均优于现有最先进的方法。Website: https://viva-paper.github.io |
| 2025-12-18 | Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image | null | 奖励模型 (RM) 对于训练大型语言模型 (LLM) 至关重要,但对于处理交错图像和文本序列的全能模型而言,其探索仍不充分。我们引入了多模态奖励基准 2 (MMRB2),这是首个针对多模态理解和(交错)生成奖励模型的综合性基准。MMRB2 涵盖文本到图像、图像编辑、交错生成和多模态推理(“图像思维”)四项任务,为每项任务提供了 1,000 对专家标注的偏好对,这些数据来源于 21 个源任务中的 23 个模型和智能体。MMRB2 的设计特点包括:(1) 实用但具有挑战性的提示;(2) 来自最先进模型和智能体的响应;以及 (3) 通过集成过滤策略筛选出的、具有强大人类专家共识的偏好对。利用 MMRB2,我们研究了每个子任务的现有评判器,包括多模态大语言模型作为评判器以及通过人类偏好训练的模型。最新的 Gemini 3 Pro 达到了 75-80% 的准确率。GPT-5 和 Gemini 2.5 Pro 达到了 66-75% 的准确率,相比之下人类的准确率超过 90%,但它们仍超越了广泛使用的 GPT-4o (59%)。表现最佳的开源模型 Qwen3-VL-32B 取得了与 Gemini 2.5 Flash (64%) 相似的准确率。我们还表明,使用 Best-of-N 采样时,MMRB2 的性能与下游任务的成功强烈相关,并进行了深入分析,揭示了未来改进奖励模型的关键领域。 |
| 2025-12-18 | OPENTOUCH: Bringing Full-Hand Touch to Real-World Interaction | null | 人手是我们与物理世界交互的主要界面,然而第一人称感知却很少知道手何时、何地以及以何种力度进行接触。鲁棒的可穿戴触觉传感器稀缺,并且尚无野外数据集能将第一人称视频与全手触觉对齐。为了弥合视觉感知与物理交互之间的鸿沟,我们提出了 OpenTouch,这是首个野外以自我为中心的全手触觉数据集,包含 5.1 小时同步的视频-触觉-姿态数据和 2,900 个带有详细文本标注的精选片段。利用 OpenTouch,我们引入了检索和分类基准,以探究触觉如何为感知和行动奠定基础。我们展示了触觉信号为抓取理解提供了一种紧凑而强大的线索,加强了跨模态对齐,并且可以从野外视频查询中可靠地检索。通过发布这个带标注的视觉-触觉-姿态数据集和基准,我们旨在推动多模态第一人称感知、具身学习和接触丰富的机器人操作。 |
| 2025-12-18 | Radiology Report Generation with Layer-Wise Anatomical Attention | null | 自动放射学报告生成是多模态深度学习一个有前景的应用,旨在减少报告工作量并提高一致性。然而,当前最先进的(SOTA)系统——例如放射学应用多模态人工智能(MAIRA-2)和医疗通路语言模型-多模态(MedPaLM-M)——依赖于大规模多模态训练、临床元数据和多种影像视图,这使得它们资源密集且在大多数环境下难以实现。我们引入了一种紧凑的图像到文本架构,可以从单一正面图像生成胸部X射线报告的“发现”部分。该模型结合了一个冻结的无标签自蒸馏v3(DINOv3)视觉Transformer(ViT)编码器和一个通过层级解剖注意力增强的生成式预训练Transformer 2(GPT-2)解码器。这种机制通过分层高斯平滑整合了肺部和心脏分割掩模,将注意力偏向临床相关区域,而不增加可训练参数。在官方重症监护医疗信息市场-胸部X射线(MIMIC-CXR)数据集上,使用胸部X射线专家(CheXpert)和放射学图谱(RadGraph)指标进行评估,我们的方法取得了显著提升:CheXpert针对五种关键病理的宏F1值增加了168%(从0.083到0.238),微F1值增加了146%(从0.137到0.337),同时在14项观察结果上的更广泛性能提高了86%(从0.170到0.316)。结构一致性也得到改善,RadGraph F1值增加了9.7%。尽管其规模小且设计纯粹基于图像条件,但该模型表明解码器级别的解剖学指导改善了空间定位并增强了临床相关区域的一致性。源代码可在以下网址公开获取:https://github.com/devMuniz02/UDEM-CXR-Reporting-Thesis-2025。 |
| 2025-12-18 | R3ST: A Synthetic 3D Dataset With Realistic Trajectories | null | 数据集对于训练和评估用于交通分析和提高道路安全的计算机视觉模型至关重要。现有真实数据集符合真实世界场景,能够捕捉真实的道路物体行为,然而它们通常缺乏精确的真值标注。相比之下,合成数据集发挥着关键作用,无需额外成本或时间即可标注大量帧。然而,合成数据集的一个普遍缺点是缺乏真实的车辆运动,因为轨迹是使用AI模型或基于规则的系统生成的。在这项工作中,我们引入了R3ST(真实3D合成轨迹),这是一个合成数据集,它通过生成一个合成3D环境并整合源自SinD(一个从无人机拍摄画面记录的鸟瞰视图数据集)的真实世界轨迹来克服这一局限性。所提出的数据集弥补了合成数据与真实轨迹之间的差距,推动了道路车辆轨迹预测方面的研究,同时提供了精确的多模态真值标注和真实的由人类驾驶的车辆轨迹。 |
| 2025-12-12 | Multiscale Causal Geometric Deep Learning for Modeling Brain Structure | link | 多模态MRI提供互补的多尺度信息来表征大脑结构。然而,在实现神经科学可解释性的同时有效整合多模态MRI仍然具有挑战性。本文提出使用拉普拉斯谐波和谱图理论进行多模态对齐和多尺度整合。基于提供多尺度表示的皮层网格和连接组矩阵,我们设计了拉普拉斯算子和谱图注意力来构建共享潜在空间以实现模型对齐。接下来,我们采用解耦学习结合图变分自编码器架构来分离尺度特异性特征和共享特征。最后,我们设计了一个互信息引导的双层正则化器,基于解耦特征分离因果和非因果因素,从而实现鲁棒的模型性能和增强的可解释性。我们的模型优于基线模型和其他最先进的模型。消融研究证实了所提出模块的有效性。我们的模型有望为多尺度大脑结构分析提供一个鲁棒且可解释的框架。 |
| 2025-12-12 | Depth-Copy-Paste: Multimodal and Depth-Aware Compositing for Robust Face Detection | null | 数据增强对于提高人脸检测系统的鲁棒性至关重要,尤其是在遮挡、光照变化和复杂环境等挑战性条件下。传统的复制粘贴增强由于不准确的前景提取、不一致的场景几何和不匹配的背景语义,常常生成不真实的合成图像。为了解决这些局限性,我们提出了深度复制粘贴,这是一个多模态且深度感知的增强框架,通过复制全身人物实例并将其粘贴到语义兼容的场景中,生成多样化且物理上一致的人脸检测训练样本。我们的方法首先利用BLIP和CLIP共同评估语义和视觉连贯性,从而能够自动检索最合适的背景图像用于给定的前景人物。为了确保能够保留面部细节的高质量前景掩码,我们集成了SAM3进行精确分割,并利用Depth-Anything仅提取非遮挡的可见人物区域,防止损坏的面部纹理被用于增强。为了实现几何真实感,我们引入了一种深度引导的滑动窗口放置机制,该机制在背景深度图上搜索,以识别具有最佳深度连续性和尺度对齐的粘贴位置。得到的合成图像展现出自然的深度关系并提高了视觉合理性。大量实验表明,与传统复制粘贴和无深度增强方法相比,深度复制粘贴提供了更多样化和真实的训练数据,从而显著提高了下游人脸检测任务的性能。 |
| 2025-12-12 | Cross-modal Context-aware Learning for Visual Prompt Guided Multimodal Image Understanding in Remote Sensing | null | 图像理解的近期进展促成了利用大语言模型进行遥感多模态推理的方法。然而,当仅提供简单、通用文本提示时,现有方法仍然难以将模型引导至用户相关区域。此外,在大规模航空影像中,许多目标呈现出高度相似的视觉外观并具有丰富的对象间关系,这进一步使准确识别复杂化。为应对这些挑战,我们提出了跨模态上下文感知学习用于视觉提示引导的多模态图像理解(CLV-Net)。CLV-Net允许用户提供一个简单的视觉线索——一个边界框来指示感兴趣区域,并利用该线索引导模型生成忠实反映用户意图的相关的分割掩码和文本描述。我们设计的核心是一个上下文感知掩码解码器,该解码器建模并整合对象间关系,以增强目标表示并提高掩码质量。此外,我们引入了一个语义和关系对齐模块:跨模态语义一致性损失增强了针对视觉相似目标的细粒度判别能力,而关系一致性损失强制对齐了文本关系与视觉交互。在两个基准数据集上的全面实验表明,CLV-Net优于现有方法并取得了新的最先进结果。该模型有效捕捉用户意图,并生成精确、意图对齐的多模态输出。 |
| 2025-12-12 | A Modeling and Optimization Framework for Fostering Modal Shift through the Integration of Tradable Credits and Demand-Responsive Autonomous Shuttles | null | 可交易信用计划(TCS)通过限制私家车使用并允许信用交易来促进公共交通和共享交通的使用,同时维持公平的福利结果。然而,大多数现有研究假设公共交通运力无限或共享模式的固定载客量,经常忽略等待时间,并通过仅依赖车内出行时间来过度简化基于时间的成本。这些假设可能会夸大系统在TCS监管下的性能,特别是在公共交通或共享交通供应不足时。为解决此问题,我们开发了一个动态多模式均衡模型,以捕捉TCS监管下的运营约束和产生的等待时间。该模型整合了出行者的模式选择、信用交易、交通动态和等待时间,这些都取决于服务车辆的关键运营特征,例如车队规模和容量。此外,大多数TCS研究假设交通供应是固定的,忽略了由需求变化触发的供应侧响应。因此,我们进一步提出通过部署按需响应式自动穿梭巴士(DRAS)来整合自适应供应管理,并开发一个结合了均衡模型的双层优化框架,以联合优化TCS设计和DRAS的运营策略。我们将该框架应用于法国巴黎附近A10高速公路的一个路段,以检验需求-供应互动并评估联合实施TCS和DRAS的潜在益处。数值结果表明,在多模式均衡中建模运营特征以及在TCS政策中纳入灵活供应对于降低总体广义成本的重要性。 |
| 2025-12-12 | Extending a Parliamentary Corpus with MPs' Tweets: Automatic Annotation and Evaluation Using MultiParTweet | null | 社交媒体在现代政治中扮演着关键角色,因为它既反映了政治家的意识形态,也促进了与年轻一代的交流。我们提出了MultiParTweet,一个来自X平台的多语言推文语料库,它将政治家的社交媒体论述与德国政治语料库GerParCor关联起来,从而实现了在线交流和议会辩论之间的比较分析。MultiParTweet包含39,546条推文,其中包括19,056个媒体项。此外,我们通过九个基于文本的模型和一个视觉语言模型(VLM)丰富了标注,用情感、情绪和主题标注MultiParTweet。此外,自动化标注还对照手动标注的子集进行了评估。MultiParTweet可以使用我们的工具TTLABTweetCrawler进行重建,该工具提供了一个从X平台收集数据的框架。为了进行方法学演示,我们检验了模型是否可以使用剩余模型的输出相互预测。总而言之,我们提供了MultiParTweet,一个整合了自动文本和基于媒体标注并经人工标注验证的资源,以及TTLABTweetCrawler,一个通用的X平台数据收集工具。我们的分析表明模型是相互可预测的。此外,基于VLM的标注受到人类标注者的青睐,这表明多模态表示与人类解释更为一致。 |
| 2025-12-12 | DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry | null | 牙科多模态数据的可靠解读对自动化口腔医疗至关重要,然而当前的多模态大语言模型(MLLMs)在捕捉细粒度牙科视觉细节方面存在困难,并缺乏足够的推理能力来进行精确诊断。为解决这些局限性,我们提出了DentalGPT,一个专门的牙科MLLM,通过高质量的领域知识注入和强化学习开发。具体而言,我们构建了迄今为止最大的牙科标注多模态数据集,该数据集聚合了超过12万张牙科图像,并搭配详细描述,突出了诊断相关的视觉特征,使其成为迄今为止收集牙科图像最广泛的多模态数据集。在此数据集上进行训练显著增强了MLLM对牙科疾病的视觉理解能力,而随后的强化学习阶段进一步强化了其多模态复杂推理能力。在口内和全景基准测试,以及医学VQA基准测试中的牙科子集上进行的全面评估表明,尽管DentalGPT只有70亿参数,但它在疾病分类和牙科VQA任务中均取得了卓越的性能,优于许多最先进的MLLMs。这些结果表明,高质量的牙科数据结合分阶段适应为构建有能力且领域专业的牙科MLLMs提供了一条有效的途径。 |
| 2025-12-12 | HFS: Holistic Query-Aware Frame Selection for Efficient Video Reasoning | null | 视频理解中的关键帧选择面临重大挑战。传统的top-K选择方法独立地对帧进行评分,通常未能从整体上优化选择。这种独立的评分经常导致选择时间上聚类且视觉冗余的帧。此外,使用多模态大型语言模型(MLLM)离线生成的伪标签训练轻量级选择器,会阻止监督信号动态适应任务目标。为了解决这些局限性,我们提出了一种端到端可训练的任务自适应帧选择框架。思维链方法引导小型语言模型(SLM)生成任务特定的隐式查询向量,这些向量与多模态特征相结合,以实现动态帧评分。我们进一步定义了一个连续的集合级目标函数,该函数结合了相关性、覆盖率和冗余性,通过Gumbel-Softmax实现可微分优化,以在集合层面选择最优帧组合。最后,采用师生互学习,其中学生选择器(SLM)和教师推理器(MLLM)通过KL散度训练以对齐其帧重要性分布。结合交叉熵损失,这实现了端到端优化,消除了对静态伪标签的依赖。在包括Video-MME、LongVideoBench、MLVU和NExT-QA在内的各种基准上的实验表明,我们的方法显著优于现有方法。 |
| 2025-12-12 | Reconstruction as a Bridge for Event-Based Visual Question Answering | link | 将事件相机与多模态大语言模型(MLLMs)结合有望在挑战性视觉条件下实现通用场景理解,但这需要在保留事件数据独特优势与确保其与基于帧的模型兼容性之间进行权衡。为应对这一挑战,我们以重建为桥梁,提出了一种直接的基于帧的重建与标记(FRT)方法,并设计了一种利用事件稀疏性的高效自适应重建与标记(ART)方法。为进行鲁棒评估,我们引入了EvQA,这是首个针对基于事件的MLLM的客观、真实世界基准,该基准包含来自22个公共数据集的1,000个事件问答对。我们的实验表明,所提出的方法在EvQA上取得了最先进的性能,突显了MLLM在基于事件的视觉领域中的巨大潜力。 |
| 2025-12-12 | VLM2GeoVec: Toward Universal Multimodal Embeddings for Remote Sensing | null | 卫星图像与自然图像存在根本性差异:其空中视角、极高分辨率、多样的尺度变化以及大量小目标,要求同时进行区域级空间推理和整体场景理解。当前遥感方法在双编码器检索模型(擅长大规模跨模态搜索但无法交错处理模态)和生成式助手(支持区域级解释但缺乏可扩展检索能力)之间仍然是碎片化的。我们提出了VLM2GeoVec,一个遵循指令的单编码器视觉-语言模型,采用对比学习训练,将交错输入(图像、文本、边界框和地理坐标)嵌入到统一向量空间中。我们的单编码器将所有输入交错为一个联合嵌入,并使用对比损失进行训练,从而消除了多阶段流水线和特定任务模块。为了评估其通用性,我们引入了RSMEB,一个新颖的基准,涵盖了关键的遥感嵌入应用:场景分类;跨模态搜索;组合检索;视觉问答;视觉定位和区域级推理;以及语义地理空间检索。在RSMEB上,它在区域-标题检索中实现了26.6%的P@1(比双编码器基线提高了25个百分点),在指代表达检索中实现了32.5%的P@1(提高了19个百分点),在语义地理定位检索中实现了17.8%的P@1(是先前最佳水平的3倍以上),同时在场景分类和跨模态检索等传统任务上达到或超越了专用基线。VLM2GeoVec将可扩展检索与区域级空间推理相结合,从而在遥感领域实现了连贯的多模态分析。我们将在论文被接收后公开发布代码、检查点和数据。 |
| 2025-12-12 | Exploring MLLM-Diffusion Information Transfer with MetaCanvas | link | 多模态学习通过使用强大大语言模型作为认知核心的多模态大语言模型(MLLM),迅速推动了视觉理解。然而,在视觉生成领域,这些强大的核心模型通常被简化为扩散模型的全局文本编码器,使得它们大部分的推理和规划能力未被利用。这就造成了一个鸿沟:当前的多模态大语言模型能够解析复杂的布局、属性和知识密集型场景,然而却难以生成具有同样精确和结构化控制的图像或视频。我们提出了 MetaCanvas,一个轻量级框架,它允许 MLLM 直接在空间和时空潜在空间中进行推理和规划,并与扩散生成器紧密衔接。我们在三个不同的扩散骨干网络上经验性地实现了 MetaCanvas,并在六项任务中对其进行了评估,包括文本到图像生成、文本/图像到视频生成、图像/视频编辑以及上下文视频生成,每项任务都要求精确的布局、鲁棒的属性绑定和推理密集型控制。MetaCanvas 始终优于全局条件基线,这表明将 MLLM 视为潜在空间规划器是缩小多模态理解和生成之间鸿沟的一个有前景的方向。 |
| 2025-12-11 | Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation | link | 强化学习(RL)此前已被证明在大语言模型和多模态模型中行之有效,最近已成功拓展到增强二维图像生成。然而,由于三维物体更高的空间复杂度,需要全局一致的几何结构和细粒度的局部纹理,将RL应用于三维生成仍未得到充分探索。这使得三维生成对奖励设计和RL算法高度敏感。为解决这些挑战,我们首次从多个维度对文本到三维自回归生成中的RL进行了系统研究。(1) 奖励设计:我们评估了奖励维度和模型选择,表明与人类偏好对齐至关重要,并且通用多模态模型为三维属性提供了稳健的信号。(2) RL算法:我们研究了GRPO变体,强调了令牌级优化的有效性,并进一步研究了训练数据和迭代的规模扩展。(3) 文本到三维基准:由于现有基准未能衡量三维生成模型中的隐式推理能力,我们引入了MME-3DR。(4) 先进的RL范式:受三维生成自然层次结构的启发,我们提出了Hi-GRPO,通过专用奖励集成优化了从全局到局部的分层三维生成。基于这些见解,我们开发了AR3D-R1,这是首个RL增强的文本到三维模型,精通从粗略形状到纹理细化的过程。我们希望这项研究能为RL驱动的三维生成推理提供见解。代码已发布在https://github.com/Ivan-Tang-3D/3DGen-R1。 |
| 2025-12-11 | VL-JEPA: Joint Embedding Predictive Architecture for Vision-language | null | 我们引入了 VL-JEPA,一个基于联合嵌入预测架构(JEPA)构建的视觉-语言模型。与经典的视觉-语言模型(VLM)自回归生成 token 不同,VL-JEPA 预测目标文本的连续嵌入。通过在抽象表示空间中学习,该模型专注于任务相关的语义,同时抽象掉表面层次的语言变异性。在与使用相同视觉编码器和训练数据的标准 token 空间 VLM 训练进行严格控制的对比中,VL-JEPA 实现了更强的性能,同时可训练参数减少了 50%。在推理时,仅在需要将 VL-JEPA 预测的嵌入转换为文本时,才会调用轻量级文本解码器。我们表明 VL-JEPA 原生支持选择性解码,与非自适应均匀解码相比,它将解码操作的数量减少了 2.85 倍,同时保持了相似的性能。除了生成之外,VL-JEPA 的嵌入空间无需任何架构修改即可自然支持开放词汇分类、文本到视频检索和判别式视觉问答(VQA)。在八个视频分类和八个视频检索数据集上,VL-JEPA 的平均性能超越了 CLIP、SigLIP2 和 Perception Encoder。同时,尽管该模型只有 16 亿参数,但在四个 VQA 数据集(GQA、TallyQA、POPE 和 POPEv2)上,其性能与经典的视觉-语言模型(InstructBLIP、QwenVL)相当。 |
| 2025-12-11 | Mull-Tokens: Modality-Agnostic Latent Thinking | null | 推理超越语言;现实世界需要对空间、时间、功能以及更多仅凭语言无法传达的内容进行推理。现有探索图像推理潜力的多模态模型脆弱且难以扩展。它们依赖于调用专业工具、昂贵的图像生成或手工制作的推理数据来在文本和图像思维之间切换。相反,我们提供一个更简单的替代方案——Mull-Tokens——一种模态无关的潜在Token,经过预训练,可以在图像或文本模态中保存中间信息,从而让模型自由地思考以得出正确答案。我们研究了受潜在推理框架启发来训练Mull-Tokens的最佳实践。我们首先利用交错文本-图像轨迹的监督来训练Mull-Tokens,然后在没有任何监督的情况下仅使用最终答案进行微调。在四个具有挑战性的空间推理基准测试中,涉及解决谜题和采取不同视角等任务,我们证明Mull-Tokens优于几个采用纯文本推理或交错图像-文本推理的基线,相比我们最强的基线,平均提升了+3%,并在一个推理密集型谜题解决子集上最高提升了+16%。对于围绕文本和视觉推理接地挑战的讨论,Mull-Tokens提供了一个简单的解决方案,用于在多种模态中进行抽象思考。 |
| 2025-12-11 | BabyVLM-V2: Toward Developmentally Grounded Pretraining and Benchmarking of Vision Foundation Models | link | 幼儿发展轨迹为视觉基础模型的样本高效预训练设定了一个自然目标。我们引入了BabyVLM-V2,这是一个基于发展学原理、受婴儿启发式的视觉语言建模框架,它通过一个纵向的、多方面的预训练数据集、一个多功能模型,以及最重要的是,用于认知评估的DevCV工具箱,在BabyVLM-V1的基础上进行了广泛改进。该预训练数据集最大化了对一个纵向的、以婴儿为中心的视听语料库的覆盖范围,同时最小化了人工筛选,生成了模仿婴儿体验的视频-话语、图像-话语和多轮对话数据。DevCV工具箱将最近发布的NIH Baby Toolbox中所有视觉相关的测量方法改编成为一个包含十个多模态任务的基准套件,涵盖了与幼儿能力相符的空间推理、记忆和词汇理解。实验结果表明,一个从零开始预训练的紧凑模型可以在DevCV工具箱上实现有竞争力的性能,并在某些任务上超越GPT-4o。我们希望这一有原则的、统一的BabyVLM-V2框架将加速视觉基础模型在发展学合理预训练方面的研究。 |
| 2025-12-11 | CompanionCast: A Multi-Agent Conversational AI Framework with Spatial Audio for Social Co-Viewing Experiences | null | 社交临场感是共同观看内容时获得乐趣的核心,然而现代媒体消费却日益趋于独立。我们研究多智能体对话式AI系统是否能重现跨越不同内容类型的共享观看体验的动态。我们提出了CompanionCast,这是一个通用框架,用于协调多个角色专业化的AI智能体,这些智能体利用多模态输入、语音合成和空间音频对视频内容做出响应。独特的是,CompanionCast集成了一个“大语言模型作为评判者”的模块,该模块迭代地评估和优化对话在五个维度(相关性、真实性、参与度、多样性、个性一致性)上的表现。我们通过体育观赛来验证这个框架,体育观赛是一个具有丰富动态和强大社交传统的领域;一项针对足球迷的初步研究表明,与单独观看相比,多智能体交互提高了感知的社交临场感。我们的贡献包括:(1) 一个用于围绕多模态视频内容协调多智能体对话的可泛化框架;(2) 一个用于对话质量控制的新颖的评估者-智能体管道;以及 (3) AI介导的共同观看中社交临场感提升的探索性证据。我们讨论了将这种方法应用于不同观看情境(包括娱乐、教育和协作观看体验)所面临的挑战和未来方向。 |
| 2025-12-11 | DuetSVG: Unified Multimodal SVG Generation with Internal Visual Guidance | null | 最近基于视觉-语言模型(VLM)的方法在SVG生成方面取得了令人印象深刻的成果。然而,由于它们只生成文本并在解码过程中缺乏视觉信号,它们常常难以处理复杂的语义,并且无法生成视觉上吸引人或几何上连贯的SVG。我们引入DuetSVG,这是一种统一的多模态模型,能够以端到端的方式联合生成图像tokens和对应的SVG tokens。DuetSVG在图像和SVG数据集上进行训练。在推理时,我们应用了一种新颖的测试时缩放策略,该策略利用模型固有的视觉预测作为指导,以提高SVG解码质量。大量实验表明,我们的方法优于现有方法,能够在广泛的应用中生成视觉上忠实、语义上对齐且语法上干净的SVG。 |
| 2025-12-11 | PubTables-v2: A new large-scale dataset for full-page and multi-page table extraction | null | 表格提取(TE)是视觉文档理解中的一个关键挑战。传统方法首先检测表格,然后识别其结构。近期,人们对开发能够直接从完整的页面或文档上下文中提取表格的方法(例如视觉语言模型 (VLM))的兴趣激增。然而,由于缺乏标注数据,进展一直难以证明。为了解决这个问题,我们创建了一个新的大规模数据集PubTables-v2。PubTables-v2支持多个当前具有挑战性的表格提取任务。值得注意的是,它是第一个用于多页表格结构识别的大规模基准。我们通过评估在这些任务上的领域专用VLM并突出当前进展来展示其实用性。最后,我们使用PubTables-v2创建了页面对象表格Transformer (POTATR),它是将Table Transformer扩展到综合页面级TE的图像到图模型。数据、代码和训练模型将发布。 |
| 2025-12-11 | Computational emotion analysis with multimodal LLMs: Current evidence on an emerging methodological opportunity | null | 情感在政治中处于核心地位,分析其在政治传播中的作用具有悠久传统。随着研究日益利用音视频材料来分析情感表达,多模态生成式人工智能的兴起预示着巨大进步。然而,关于多模态人工智能在情感分析中有效性的证据仍然缺乏。本文通过在两个互补的人工标注视频记录数据集中,评估当前多模态大语言模型(mLLMs)在基于视频的情绪唤醒分析中的表现,旨在弥补这一空白。我发现,在理想情况下,mLLMs的情绪唤醒评分高度可靠,并且几乎不显示人口统计学偏见的迹象。然而,在真实世界议会辩论中发言者的记录中,mLLMs的唤醒评分未能兑现这一承诺,可能对后续的统计推断产生负面影响。因此,本研究强调了在政治分析中对新兴生成式人工智能方法进行持续、彻底评估的必要性,并贡献了一个合适的、可复制的框架。 |
| 2025-12-11 | From Macro to Micro: Benchmarking Microscopic Spatial Intelligence on Molecules via Vision-Language Models | null | 本文介绍了微观空间智能 (MiSI) 的概念,即感知和推理不可见微观实体空间关系的能力,这对科学发现至关重要。为了评估视觉语言模型 (VLM) 在该领域的潜力,我们提出了一个系统的基准框架 MiSI-Bench。该框架包含超过163,000个问答对和587,000张图像,这些图像源自大约4,000个分子结构,涵盖九项互补任务,评估的能力范围从基本空间变换到复杂关联识别。实验结果表明,当前最先进的VLM在此基准上的表现远低于人类水平。然而,一个经过微调的7B模型展示了巨大的潜力,甚至在空间变换任务中超越了人类,而它在氢键识别等科学基础任务中表现不佳,这强调了整合明确领域知识对于推动科学通用人工智能 (AGI) 发展的必要性。数据集可在 https://huggingface.co/datasets/zongzhao/MiSI-bench 获取。 |
| 2025-12-11 | MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence | null | 连续视觉输入上的空间理解对于MLLM发展成为物理环境中的通用助手至关重要。然而,目前仍没有一个能够全面评估实现这一目标的进展的综合基准。在这项工作中,我们引入了MMSI-Video-Bench,这是一个用于评估MLLM中基于视频的空间智能的完全人工标注基准。它通过基于25个数据集和自制视频中1,278个片段的1,106个问题,运作了一个四级框架:感知、规划、预测和跨视频推理。每个项目都由3DV专家精心设计和审查,并附有解释性原理,以确保精确、无歧义的定位。MMSI-Video-Bench利用其多样化的数据来源和全面的任务覆盖,还支持三个面向领域的子基准(室内场景感知基准、机器人基准和定位基准),用于有针对性的能力评估。我们评估了25个强大的开源和专有MLLM,揭示了一个惊人的人机差距:许多模型表现接近随机,而最佳推理模型落后人类近60%。我们进一步发现,经过空间微调的模型在我们的基准上仍然未能有效泛化。细粒度错误分析揭示了在几何推理、运动定位、长时预测和跨视频对应方面的系统性故障。我们还表明,典型的帧采样策略在我们的推理密集型基准上泛化效果差,并且3D空间线索和思维链提示均未产生有意义的提升。我们期望我们的基准能够为推进基于视频的空间智能建立一个坚实的试验台。 |
| 2025-12-04 | DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation | link | 近期的统一多模态大语言模型(MLLMs)展现出令人印象深刻的能力,结合了思维链(CoT)推理以增强文本到图像生成。然而,现有方法仍存在局限性,要么将模型仅视为一个独立的生成器,要么依赖于抽象的文本规划。为此,我们提出了Draft-as-CoT (DraCo),这是一种新颖的交错推理范式,充分利用CoT中的文本和视觉内容以实现更好的规划和验证。我们的方法首先生成一个低分辨率的草图图像作为预览,提供更具体和结构化的视觉规划和指导。接着,我们利用模型固有的理解能力来验证草图与输入提示之间潜在的语义错位,并通过超分辨率的选择性修正进行细化。通过这种方式,我们的方法解决了两个基本挑战:文本规划的粗粒度性质和生成稀有属性组合的难度。为了支持训练,我们整理了DraCo-240K数据集,旨在增强三种原子能力,涵盖通用修正、实例操作和布局重组。在DraCo-CFG(一种针对交错推理的专用无分类器引导(CFG)策略)的支持下,DraCo在GenEval上实现了显著提升(+8%),在Imagine-Bench上提升了0.91,在GenEval++上提升了3%,显著优于直接生成和其他由CoT赋能的生成方法。 |
| 2025-12-04 | ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning | link | 奖励模型对于使视觉-语言系统与人类偏好对齐至关重要,然而现有方法存在幻觉、视觉基础薄弱以及无法使用工具进行验证的问题,这限制了它们在复杂多模态推理任务上的可靠性。我们提出了ARM-Thinker,一个具备智能体能力的多模态奖励模型,它能够自主调用外部工具(例如,图像裁剪、文档页面检索),将判断建立在可验证的证据之上,取代了静态、非交互式的奖励评分。这使得模型能够验证细粒度视觉细节、交叉引用多页证据并验证推理主张,这些能力是现有奖励模型所不具备的。我们使用多阶段强化学习训练ARM-Thinker,联合优化工具调用决策和判断准确性。为了评估智能体奖励建模,我们引入了ARMBench-VL,它包含三个基准,用于评估细粒度视觉基础(图像级工具)、多页文档理解(检索工具)以及指令遵循(文本级验证)。ARM-Thinker在奖励建模基准上平均提升了16.2%,在工具使用任务上提升了9.6%,并且在多模态数学和逻辑推理基准上超越了基线。我们的结果表明,智能体能力显著增强了奖励模型的准确性和可解释性。 |
| 2025-12-04 | STARE-VLA: Progressive Stage-Aware Reinforcement for Fine-Tuning Vision-Language-Action Models | null | 大语言模型和基于强化学习的微调推动了视觉-语言-动作 (VLA) 模型的最新进展,这些模型在机器人操作方面取得了显著进步。现有方法通常将长时序动作视为语言序列,并应用轨迹级优化方法,例如轨迹级偏好优化 (TPO) 或近端策略优化 (PPO),这导致了粗粒度的信用分配和不稳定的训练。然而,与语言不同(语言尽管句序灵活但仍能保持统一的语义),动作轨迹通过具有不同学习难度的因果链式阶段进展。这促使我们进行渐进式阶段优化。因此,我们提出了阶段感知强化 (STARE),这是一个将长时序动作轨迹分解为语义有意义的阶段,并提供密集的、可解释的、与阶段对齐的强化信号的模块。将STARE集成到TPO和PPO中,我们分别形成了用于离线阶段式偏好的阶段感知TPO (STA-TPO) 和用于在线阶段内交互的阶段感知PPO (STA-PPO)。进一步以监督微调作为初始化,我们提出了模仿 -> 偏好 -> 交互 (IPI),这是一个用于提高VLA模型中动作准确性的串行微调流程。在SimplerEnv和ManiSkill3上的实验证明了显著的提升,在SimplerEnv上实现了98.0%的最先进成功率,在ManiSkill3任务上实现了96.4%的最先进成功率。 |
| 2025-12-04 | TV2TV: A Unified Framework for Interleaved Language and Video Generation | null | 视频生成模型正在迅速发展,但在处理需要大量语义分支或对接下来发生什么进行重复高级推理的复杂视频输出时仍可能遇到困难。在本文中,我们介绍了一类新型的全能视频-文本模型,这些模型整合了近期语言模型(LM)推理进展中的思想以应对这一挑战。更具体地说,我们提出了TV2TV,这是一个统一的生成建模框架,它将视频生成分解为交错的文本和视频生成过程。TV2TV使用混合Transformer(MoT)架构联合学习语言建模(下一词元预测)和视频流匹配(下一帧预测)。在推理时,TV2TV决定何时在生成文本和视频帧之间交替,从而允许模型在“用像素行动”生成帧之前,“用文字思考”后续内容。这种设计将决定接下来发生什么的大部分责任卸载给语言建模模块,从而提高了生成视频的视觉质量和提示对齐度。它还实现了细粒度可控性,允许用户通过在过程中的任何一点进行文本干预来修改视频生成轨迹。在视频游戏数据上的受控实验中,TV2TV在视觉质量和可控性两方面都展示了显著的改进。TV2TV也适用于自然视频,正如我们通过使用视觉-语言模型(VLM)为体育视频增强交错的自然语言动作描述所展示的。在此语料库上训练TV2TV产生了强大的视觉质量和提示对齐度,展示了模型对复杂真实世界动作序列进行推理和生成的能力。综上所述,这些结果突出了TV2TV是迈向具有开放式文本推理和控制能力的视频生成的有希望的一步。 |
| 2025-12-04 | SA-IQA: Redefining Image Quality Assessment for Spatial Aesthetics with Multi-Dimensional Rewards | null | 近年来,针对AI生成图像(AIGI)的图像质量评估(IQA)发展迅速;然而,现有方法主要针对肖像和艺术图像,缺乏对室内场景的系统评估。我们引入了空间美学,这是一种从布局、和谐、光照和失真四个维度评估室内图像美学质量的范式。我们构建了SA-BENCH,首个空间美学基准,包含18,000张图像和50,000条精确标注。利用SA-BENCH,我们系统地评估了当前的IQA方法,并通过多模态大语言模型(MLLM)微调和多维度融合方法开发了SA-IQA,作为一个评估空间美学的综合奖励框架。我们将SA-IQA应用于两个下游任务:(1) 作为奖励信号,与GRPO强化学习相结合以优化AIGC生成流程;(2) 进行N选一(Best-of-N)筛选,以过滤高质量图像并提高生成质量。实验表明,SA-IQA在SA-BENCH上显著优于现有方法,为空间美学评估树立了新标准。代码和数据集将开源以推动该领域的研究和应用。 |
| 2025-12-04 | Visual Reasoning Tracer: Object-Level Grounded Reasoning Benchmark | null | 多模态大语言模型(MLLMs)的最新进展显著提升了视觉定位和视觉问答等任务的性能。然而,这些模型的推理过程仍然大多不透明;它们通常只输出最终预测,而不揭示导致结果的中间步骤或细粒度证据(例如,像素、位置)。这与通过视觉推理链自然运行的人类智能形成对比。为解决这一局限性,我们引入了视觉推理追踪器(VRT)任务,该任务要求模型不仅要定位目标对象,还要明确预测构成推理路径的中间对象。为推进该领域的研究,我们贡献了:(1) VRT-Bench,一个用于评估视觉推理的人工标注基准;(2) 一个用于评估推理轨迹质量的新度量;以及 (3) VRT-80k,一个用于推理模型训练的大规模数据集。我们的实验表明,现有模型虽然通常能产生正确的最终输出,但它们难以对其中间推理进行定位。相比之下,在 VRT-80k 上训练的模型在追踪推理路径方面取得了显著改进。 |
| 2025-12-04 | Multimode RF Reflectometry for Spin Qubit Readout and Device Characterization | null | 我们引入了一种多模超导电感器架构,它能够实现最高2 GHz的多个离散频率的射频反射测量,解决了传统单模设计的局限性。螺旋电感器的分布式匝间电容产生了具有不同阻抗匹配条件的独特谐振模式。通过在多个模式下探测量子点,我们在宽频率范围内提取了隧穿速率,并识别出附近电荷缺陷的特征。利用其中一个高阶模式,我们通过射频单电子晶体管(RF-SET)演示了单次自旋读出,实现了积分时间为8微秒、读出保真度为98%的单重态-三重态读出。这些结果确立了多模电感器作为一种可扩展且灵活的组件,用于快速自旋量子比特读出和器件质量表征。 |
| 2025-12-04 | OMTRA: A Multi-Task Generative Model for Structure-Based Drug Design | null | 基于结构的药物设计(SBDD)专注于设计与特定蛋白质口袋结合的小分子配体。计算方法在现代SBDD工作流程中不可或缺,并常通过分子对接或药效团搜索等虚拟筛选方法加以利用。现代生成建模方法致力于通过从头设计来改进新型配体发现。在这项工作中,我们认识到这些任务共享一个共同结构,因此可以被表示为一致生成建模框架的不同实例化。我们提出了OMTRA中的统一方法,OMTRA是一个多模态流匹配模型,它灵活地执行许多与SBDD相关的任务,包括一些在传统工作流程中没有对应物的任务。此外,我们整理了一个包含5亿个3D分子构象的数据集,补充了蛋白质-配体数据并扩大了可用于训练的化学多样性。OMTRA在口袋条件下的从头设计和分子对接方面获得了最先进的性能;然而,大规模预训练和多任务训练的效果有限。用于重现这项工作的所有代码、训练模型和数据集可在https://github.com/gnina/OMTRA获取。 |
| 2025-12-04 | Semantic-Guided Two-Stage GAN for Face Inpainting with Hybrid Perceptual Encoding | null | 人脸图像修复旨在恢复人脸图像中缺失或损坏的区域,同时保留身份信息、结构一致性和照片真实感图像质量,这是一项专为照片修复而创建的任务。尽管深度生成模型最近取得了许多进展,但现有方法在处理大尺寸不规则掩码时面临问题,经常由于直接的像素级合成方法以及对人脸先验知识的有限利用,在掩码区域边缘产生模糊的纹理、语义不一致性或不自然的人脸结构。在本文中,我们提出了一种新颖的架构,通过语义引导的分层合成来解决上述挑战。我们的方法首先通过一种基于语义组织和合成信息的方法,随后进行纹理细化。这一过程为人脸结构提供了清晰的洞察,然后我们再创建详细的图像。在第一阶段,我们融合了两种技术:一种是利用CNNs关注局部特征,另一种是利用Vision Transformers关注全局特征。这有助于我们创建清晰详细的语义布局。在第二阶段,我们使用多模态纹理生成器通过整合来自不同尺度的信息来细化这些布局,确保整体的连贯性和一致性。该架构通过动态注意力机制自然地处理任意掩码配置,无需针对特定掩码进行训练。在CelebA-HQ和FFHQ这两个数据集上的实验表明,我们的模型优于其他最先进的方法,在LPIPS、PSNR和SSIM等指标上显示出改进。它在具有挑战性的大面积修复场景中产生了视觉效果显著的结果,并具有更好的语义保留性。 |
| 2025-12-04 | RAMEN: Resolution-Adjustable Multimodal Encoder for Earth Observation | null | 地球观测(EO)数据涵盖了广泛的空间、光谱和时间分辨率,从高分辨率光学图像到低分辨率多光谱产品或雷达时间序列。尽管最近的基础模型改进了多模态集成以学习有意义的表示,但它们通常期望固定的输入分辨率,或基于传感器特定的编码器,从而限制了在异构EO模态间的泛化能力。为克服这些限制,我们引入了RAMEN,这是一种分辨率可调的多模态编码器,它以完全与传感器无关的方式学习跨EO数据的共享视觉表示。RAMEN将模态以及空间和时间分辨率视为关键的输入数据特征,从而在统一的潜在空间中实现跨模态的连贯分析。其主要方法论贡献是将空间分辨率定义为一个可控的输出参数,赋予用户在推理时直接控制所需细节级别的能力,并允许在空间精度和计算成本之间进行明确的权衡。我们训练了一个单一的统一Transformer编码器,重构来源于不同来源的掩码多模态EO数据,从而确保了跨传感器和分辨率的泛化能力。预训练完成后,RAMEN能有效迁移到已知和未见的传感器配置,并在社区标准PANGAEA基准测试中超越了更大的最先进模型,该基准测试包含各种多传感器和多分辨率的下游任务。我们的代码和预训练模型可在https://github.com/nicolashoudre/RAMEN获取。 |
| 2025-12-02 | OneThinker: All-in-one Reasoning Model for Image and Video | link | 强化学习(RL)最近在激发多模态大语言模型(MLLMs)的视觉推理能力方面取得了显著成功。然而,现有方法通常为不同任务训练独立的模型,并将图像和视频推理视为不相干的领域。这导致了在构建多模态推理通才方面的可扩展性有限,从而限制了实际的多功能性,并阻碍了任务和模态之间潜在的知识共享。为此,我们提出了 OneThinker,这是一种一体化推理模型,它统一了图像和视频理解,涵盖了多种基本视觉任务,包括问答、图像描述生成、空间和时间定位、跟踪以及分割。为实现这一目标,我们构建了涵盖所有这些任务的 OneThinker-600k 训练语料库,并利用商业模型进行 CoT 注释,从而生成 OneThinker-SFT-340k 用于 SFT 冷启动。此外,我们提出了 EMA-GRPO,通过跟踪任务奖励标准差的移动平均值来处理多任务强化学习中的奖励异质性,以实现平衡优化。在多样化的视觉基准上进行的广泛实验表明,OneThinker 在 31 个基准上,涵盖 10 种基本视觉理解任务中展现出强大的性能。此外,它在特定任务之间展现出有效的知识迁移能力以及初步的零样本泛化能力,这标志着向统一的多模态推理通才迈进了一步。所有代码、模型和数据均已发布。 |
| 2025-12-02 | MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation | null | 我们提出了MAViD,一个用于视听对话理解和生成的新颖多模态框架。现有方法主要侧重于非交互式系统,并且局限于生成受限且不自然的人类语音。这项任务的主要挑战在于有效整合理解和生成能力,以及实现无缝的多模态音视频融合。为解决这些问题,我们提出了一种Conductor-Creator架构,将对话系统划分为两个主要组件。Conductor负责理解、推理并生成指令,将其分解为动作和语音组件,从而实现对交互的细粒度控制。Creator随后根据这些指令提供交互式响应。此外,为解决使用双DiT结构生成具有一致身份、音色和语调的长视频的难题,Creator采用了一种结合自回归(AR)和扩散模型的结构。AR模型负责音频生成,而扩散模型确保高质量视频生成。此外,我们提出了一种新颖的融合模块,以增强上下文连续片段和模态之间的连接,从而实现同步的长时长视听内容生成。大量实验表明,我们的框架能够生成生动且上下文连贯的长时长对话交互,并准确解释用户的多模态查询。 |
| 2025-12-02 | LORE: A Large Generative Model for Search Relevance | null | 我们引入了LORE,一个用于电商搜索中基于大型生成模型相关性的系统性框架。LORE历经三年部署和迭代,在在线GoodRate指标上实现了累计27%的提升。本报告分享了其开发生命周期中在数据、特征、训练、评估和部署方面获得的宝贵经验。现有工作在应用思维链(CoT)以提升相关性时,常常遇到性能瓶颈。我们认为这源于将相关性视为一个单一任务,缺乏原则性的解构。我们的关键见解是,相关性包含不同的能力:知识与推理、多模态匹配和规则遵循。我们主张,质量驱动的分解对于突破当前性能瓶颈至关重要。LORE为大型语言模型(LLM)相关性生命周期提供了一个完整蓝图。主要贡献包括:(1) 一个结合通过SFT进行的渐进式CoT合成与通过RL进行的人类偏好对齐的两阶段训练范式。(2) 一个旨在评估这些核心能力的综合基准测试RAIR。(3) 一个能够有效地将离线LLM能力转移到在线系统的查询频率分层部署策略。LORE既是一个实用解决方案,也为其他垂直领域提供了方法论参考。 |
| 2025-12-02 | DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling | link | 理解动态物理世界,其特点是不断演化的3D结构、真实世界运动以及带有文本描述的语义内容,对于人机交互至关重要,并使具身智能体能够以类似人类的能力在真实环境中感知和行动。然而,现有数据集通常源自有限的模拟器,或利用传统运动恢复结构(SfM)进行按比例标注,并提供有限的描述性字幕,这限制了基础模型从通常来源于互联网的单目视频中准确解释真实世界动态的能力。为了弥合这些差距,我们引入了DynamicVerse,一个用于动态真实世界视频的物理尺度、多模态4D世界建模框架。我们利用大型视觉模型、几何模型和多模态模型来解释米制尺度的静态几何、真实世界动态运动、实例级掩码和整体描述性字幕。通过将基于窗口的捆集调整与全局优化相结合,我们的方法将长视频序列转换为综合的4D多模态格式。DynamicVerse提供了一个大规模数据集,包含10万多段视频、80万多个标注掩码和1000万多帧来自互联网视频。在视频深度估计、相机姿态估计和相机内参估计这三项基准任务上的实验评估表明,我们的4D建模在捕获物理尺度测量方面实现了卓越的性能,并比现有方法具有更高的全局精度。 |
| 2025-12-02 | GraphFusion3D: Dynamic Graph Attention Convolution with Adaptive Cross-Modal Transformer for 3D Object Detection | null | 尽管三维目标检测取得了显著进展,点云仍因数据稀疏、结构不完整和语义信息有限而面临挑战。捕获远距离物体之间的上下文关系带来了额外的困难。为了解决这些挑战,我们提出了GraphFusion3D,一个结合了多模态融合和先进特征学习的统一框架。我们的方法引入了自适应跨模态Transformer (ACMT),它自适应地将图像特征整合到点表示中,以丰富几何和语义信息。对于候选区域细化,我们引入了图推理模块 (GRM),这是一种新颖的机制,它通过建模邻域关系同时捕获局部几何结构和全局语义上下文。该模块采用多尺度图注意力机制,动态地权衡候选区域之间的空间接近度和特征相似度。我们进一步采用级联解码器,通过多阶段预测逐步细化检测结果。在SUN RGB-D (70.6% AP ${25}$和51.2% AP${50}$) 和ScanNetV2 (75.1% AP${25}$和60.8% AP${50}$ ) 上的大量实验表明,与现有方法相比,性能有显著提升。 |
| 2025-12-02 | InEx: Hallucination Mitigation via Introspection and Cross-Modal Multi-Agent Collaboration | null | 幻觉仍然是大型语言模型(LLM)中的一个关键挑战,阻碍了可靠的多模态大型语言模型(MLLM)的发展。现有解决方案通常依赖人工干预,或未充分利用智能体自主缓解幻觉的能力。为了解决这些局限性,我们从人类在现实世界中如何做出可靠决策中汲取灵感。他们首先通过内省推理来减少不确定性并形成初步判断,然后依赖来自多样化视角的外部验证来做出最终决策。受此认知范式启发,我们提出了InEx,一个无需训练的多智能体框架,旨在自主缓解幻觉。InEx引入了内部内省推理,以基于熵的不确定性估计为指导,从而提高了决策智能体推理过程的可靠性。智能体首先生成一个响应,随后通过与编辑智能体和自我反思智能体进行外部跨模态多智能体协作,对该响应进行迭代验证和完善,进一步增强了可靠性并缓解了幻觉。大量实验表明,InEx持续优于现有方法,在通用和幻觉基准上取得了4%-27%的提升,并表现出强大的鲁棒性。 |
| 2025-12-02 | Contextual Image Attack: How Visual Context Exposes Multimodal Safety Vulnerabilities | null | 尽管多模态大语言模型 (MLLMs) 展现出卓越的能力,但它们的安全对齐容易受到越狱攻击。现有攻击方法通常侧重于文本-图像交互,将视觉模态视为次要提示。这种方法未充分利用图像承载复杂上下文信息的独特潜力。为弥补这一不足,我们提出了一种新的以图像为中心的攻击方法——上下文图像攻击 (CIA),该方法采用多智能体系统,利用四种不同的可视化策略,巧妙地将有害查询嵌入到看似良性的视觉上下文。为进一步增强攻击效果,该系统整合了上下文元素增强和自动毒性混淆技术。在MMSafetyBench-tiny数据集上的实验结果表明,CIA分别针对GPT-4o和Qwen2.5-VL-72B模型实现了4.73和4.83的高毒性分数,攻击成功率 (ASR) 分别达到86.31%和91.07%。我们的方法显著优于现有工作,证明视觉模态本身是越狱高级MLLMs的强大载体。 |
| 2025-12-02 | Lumos: Let there be Language Model System Certification | null | 我们引入了首个基于原理的框架Lumos,用于规范和形式化认证语言模型系统(LMS)的行为。Lumos是一种基于图的命令式概率编程DSL,具有用于为LMS生成独立同分布提示的构造。它通过图提供了提示分布的结构化视图,从采样的子图生成随机提示。Lumos通过与统计认证器集成,支持对任意提示分布下的LMS进行认证。我们为Lumos提供了混合(操作和指称)语义,从而提供了一种严格解释这些规范的方法。Lumos仅使用一小组可组合的构造,即可编码现有的LMS规范,包括复杂的关系和时间规范。它也促进了新属性的规范——我们提出了使用Lumos开发的、用于自动驾驶场景中视觉语言模型(VLM)的首个安全规范。利用这些规范,我们表明最先进的VLM Qwen-VL在雨天驾驶条件下的右转场景中,以至少90%的概率产生不正确和不安全的响应,表现出严重的安全故障,揭示了巨大的安全风险。Lumos的模块化结构允许轻松修改规范,使LMS认证能够跟上快速演变的威胁环境。我们进一步证明,用Lumos编写的规范程序能够发现最先进LMS所表现出的特定故障案例。Lumos是首个系统性、可扩展的基于语言的框架,用于规范和认证LMS行为,为LMS认证的更广泛采用铺平了道路。 |
| 2025-12-02 | Benchmarking Scientific Understanding and Reasoning for Video Generation using VideoScience-Bench | null | 视频生成领域的下一个前沿在于开发具备零样本推理能力的模型,在此过程中,理解真实世界的科学定律对于在不同条件下准确模拟物理结果至关重要。然而,现有的视频基准测试多基于物理常识,对视频模型的科学推理能力提供的洞察有限。我们引入了VideoScience-Bench,一个旨在评估视频模型在本科级别科学理解能力的基准测试。每个提示都编码了一个复合科学场景,需要理解和推理多个科学概念才能生成正确的现象。该基准测试包含200个精心策划的提示,涵盖物理和化学领域的14个主题和103个概念。我们对七个最先进的视频模型在文本到视频(T2V)和图像到视频(I2V)设置下进行了专家标注评估,评估维度包括五个方面:提示一致性、现象一致性、正确动态性、不变性和时空连续性。利用VLM(视觉语言模型)作为评估者来评估视频生成结果,我们观察到其与人类评估结果之间存在很强的相关性。据我们所知,VideoScience-Bench是第一个基准测试,它不仅将视频模型评估为生成器,还评估为推理器,要求其生成结果展现出与预期的物理和化学现象保持一致的科学理解能力。我们的数据和评估代码可在以下网址获取:github.com/hao-ai-lab/VideoScience。 |
| 2025-12-02 | AutoNeural: Co-Designing Vision-Language Models for NPU Inference | null | 尽管神经网络处理器 (NPU) 为边缘AI提供了高理论效率,但针对GPU优化的最先进视觉-语言模型 (VLM) 在这些基板上往往表现不佳。我们将这种硬件-模型不匹配归因于两个主要因素:视觉Transformer (ViT) 的量化脆弱性,以及自回归注意力机制的I/O密集型特性,后者未能充分利用NPU的高算术吞吐量。为了弥合这一差距,我们提出了AutoNeural,这是一种NPU原生的VLM架构,协同设计用于纯整数推理。我们用一个利用深度可分离卷积的MobileNetV5风格主干网络取代了标准ViT编码器,这确保了有界激活分布,从而实现稳定的INT4/8/16量化。作为补充,我们的语言主干网络将状态空间模型 (SSM) 原理与Transformer层相结合,采用高效门控卷积以实现线性时间复杂度。这种混合设计消除了生成过程中键值缓存带来的沉重内存I/O开销。我们的方法带来了显著的效率提升,与传统基线相比,将视觉编码器的量化误差降低了高达7倍,端到端延迟降低了14倍。AutoNeural还提供了比基线快3倍的解码速度和长4倍的上下文窗口。我们通过在高通SA8295P SoC上进行的真实世界汽车案例研究验证了这些改进,展示了其在座舱应用中的实时性能。我们的结果强调,针对NPU限制重新思考模型拓扑结构是实现鲁棒多模态边缘智能的先决条件。 |
| 2025-11-28 | Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models | link | 对动态视觉内容进行推理仍然是多模态大型语言模型的核心挑战。近期思维模型生成显式推理轨迹以提高可解释性;然而,它们的推理结果往往看似令人信服,但在逻辑上不一致或视觉证据支持不足。我们通过两种诊断指标识别并形式化了这些问题:思维答案一致性 (TAC) 衡量推理与答案之间的一致性,以及视频注意力分数 (VAS) 捕捉推理在多大程度上依赖于视觉而非文本线索。对11个视频推理基准的分析表明,当前模型严重依赖语言先验知识而非视觉内容。为了解决这个问题,我们提出了一种强化学习方法,该方法能同时增强时间精度和推理一致性。我们的方法将时间戳感知监督微调与由新颖的时间对齐奖励 (TAR) 指导的群组相对策略优化 (GRPO) 相结合。这种双步后训练阶段鼓励实现时间上对齐且因果连贯的视频推理。得到的模型Video R2在多个基准上持续实现更高的TAC、VAS和准确性,证明了时间对齐和推理连贯性的改进能够带来更准确、更值得信赖的视频理解。我们的代码、数据集和模型将会开源。 |
| 2025-11-28 | Video-CoM: Interactive Video Reasoning via Chain of Manipulations | link | 近期的多模态大语言模型(MLLMs)在视频理解方面取得了进展,但大多数模型仍停留在“思考视频”的阶段,即视频一旦编码,推理便完全在文本中展开,将视觉输入视为静态上下文。这种被动范式造成了语义瓶颈:模型无法重新观看、重新聚焦或验证证据,导致在需要细粒度时空理解的任务上表现出浅层视觉推理。在这项工作中,我们引入了交互式视频推理,这是一种将视频转化为活跃认知工作空间的新范式,使模型能够“与视频一起思考”。我们的模型Video CoM通过操纵链(CoM)进行推理,执行迭代视觉动作来收集和完善证据。为了支持这种行为,我们构建了Video CoM Instruct,一个包含1.8万个指令的微调数据集,专门用于多步操纵推理。除了监督学习,我们还通过强化学习,结合具备推理意识的群组相对策略优化(GRPO)来进一步优化操纵策略。与仅依赖稀疏答案奖励的先前工作不同,我们的方法引入了步级推理奖励,引导模型进行有依据且一致的推理。Video CoM在九个视频推理基准上取得了优异结果,相较于近期的最先进模型,平均性能提升了3.6%,而训练仅使用了2.5万个监督微调(SFT)和3千个GRPO视频样本,显著少于可比较的大规模模型。消融研究表明,具备推理意识的奖励能同时提高准确性和可解释性。代码:https://github.com/mbzuai-oryx/Video-CoM |
| 2025-11-28 | Visual Generation Tuning | link | 大型视觉语言模型(VLMs)通过大规模预训练有效地弥合了模态鸿沟,学习了与语言对齐的复杂视觉表示。然而,这些为多模态理解任务优化的表示是否蕴藏着视觉生成的内在潜力,这一点尚未得到充分探索。在本文中,我们提出了VGT(视觉生成微调),这是一种旨在激发任何视觉语言模型中潜在视觉生成能力的新范式。通过对预训练良好的VLM进行高效的视觉生成微调,我们显著降低了对齐成本,并加速了连续空间中自回归建模的收敛(20倍加速)。具体来说,我们摒弃了为扩散Transformer设计的纠缠像素级VAE,并通过将预训练VLM中的语义编码器与像素解码器的潜在表示对齐来构建VGT-AE。在图像重建任务中,我们在28倍压缩比下实现了26.67的PSNR和0.50的rFID,优于专门的VAE;在视觉生成任务中,我们在自回归模型中取得了最先进的结果,在GenEval上达到0.77,在DPG-Bench上达到78.73。此外,我们提出的VGT展现了显著的扩展潜力,并且能够灵活地赋予任何为多模态理解训练的VLM以视觉生成能力,这为探索下一代统一多模态基础模型开辟了新途径。模型和代码可在https://github.com/hustvl/VGT 获取。 |
| 2025-11-28 | LFM2 Technical Report | null | 我们提出了LFM2,一个流动基础模型家族,专为高效设备端部署和强大的任务能力而设计。通过在边缘延迟和内存约束下使用硬件在环架构搜索,我们获得了一个紧凑的混合骨干网络,它结合了门控短卷积和少量分组查询注意力块,与同等大小的模型相比,在CPU上预填充和解码速度提高了高达2倍。LFM2家族涵盖3.5亿至83亿参数,包括密集模型(3.5亿、7亿、12亿、26亿)和专家混合(MoE)变体(总参数83亿,活跃参数15亿),所有模型均具有32K的上下文长度。LFM2的训练流程包括一个经过调整的、解耦的Top-K知识蒸馏目标,以避免分布不匹配;采用难度排序数据的课程学习;以及一个三阶段后训练方案,包括有监督微调、长度归一化偏好优化和模型合并。经过10-12万亿(T)tokens的预训练,LFM2模型在各种基准测试中取得了强大成果;例如,LFM2-2.6B在IFEval上达到79.56%,在GSM8K上达到82.41%。我们进一步构建了多模态和检索变体:用于视觉-语言任务的LFM2-VL、用于语音的LFM2-Audio和用于检索的LFM2-ColBERT。LFM2-VL通过令牌高效的视觉处理支持可调的准确性-延迟权衡,而LFM2-Audio分离了音频输入和输出路径,实现了与大3倍模型媲美的实时语音到语音交互。LFM2-ColBERT为查询和文档提供了低延迟编码器,实现了多语言高性能检索。所有模型均以开放权重和ExecuTorch、llama.cpp、vLLM的部署包发布,使LFM2成为需要快速、内存高效推理和强大任务能力的边缘应用的实用基础。 |
| 2025-11-28 | Quantized-Tinyllava: a new multimodal foundation model enables efficient split learning | null | 拆分学习是一种广为人知的方法,通过在分布式设备上训练模型来解决数据隐私问题,从而避免了引发隐私问题的数据共享。然而,高昂的网络通信成本始终是拆分学习的一个障碍,特别是对于需要传输大量高维数据的大型基础模型。为了解决这个问题,我们提出了一种新的多模态模型结构,它结合了基于学习的数据压缩方法,将模型嵌入压缩成低位整数,同时保持了模型的性能,从而大幅降低了分区间的传输成本。然后,我们基于熵编码的扎实理论基础,确定了离散表示级别的最佳数量。 |
| 2025-11-28 | VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction | null | 在单个分词器中统一多模态理解、生成和重建表示仍然是构建统一模型的一个关键挑战。此前研究主要尝试在双编码器范式中解决此问题,例如分别利用独立的编码器进行理解和生成,或通过对比损失平衡语义表示和低级特征。在本文中,我们提出了VQRAE,一种表示自编码器的矢量量化版本,它首次探索在统一的分词器内生成用于图像理解的连续语义特征和用于视觉生成的离散token的统一表示。具体而言,我们基于预训练的视觉基础模型,采用对称的ViT解码器,并采用两阶段训练策略:首先,它冻结编码器并以像素重建为目标学习高维语义VQ码本;然后联合优化编码器并施加自蒸馏约束。这种设计使得语义信息损失可忽略不计,从而保持多模态理解能力,并能生成兼容生成的离散token和进行细粒度重建。此外,我们发现在量化语义编码器中存在一个有趣的特性,即它们依赖于高维码本,这与此前图像重建中常用的低维码本实践形成对比。语义VQ码本可以在1536维下实现100%的利用率。VQRAE在视觉理解、生成和重建的多个基准测试中表现出有竞争力的性能,并因其离散的优点在自回归范式中展现出良好的扩展性。 |
| 2025-11-28 | DEAL-300K: Diffusion-based Editing Area Localization with a 300K-Scale Dataset and Frequency-Prompted Baseline | link | 基于扩散的图像编辑使普通用户能够轻松进行语义级图像操纵,但它也使得难以定位的真实局部伪造成为可能。现有基准主要侧重于生成图像的二分类检测或手动编辑区域的定位,未能反映基于扩散的编辑特性,这些编辑通常与原始内容平滑融合。我们提出了基于扩散的图像编辑区域定位数据集(DEAL-300K),这是一个用于基于扩散的图像操纵定位(DIML)的大规模数据集,包含超过300,000张带标注的图像。我们通过使用多模态大型语言模型生成编辑指令、无掩码扩散编辑器生成被操纵图像以及主动学习变化检测流程获取像素级标注来构建DEAL-300K。在此数据集的基础上,我们提出了一个定位框架,该框架结合了冻结的视觉基础模型(VFM)和多频提示调优(MFPT),以捕获编辑区域的语义和频域线索。在DEAL-300K上训练后,我们的方法在我们的测试集上达到了82.56%的像素级F1分数,并在外部CoCoGlide基准上达到了80.97%,为未来的DIML研究提供了强大的基线和实用基础。该数据集可通过https://github.com/ymhzyj/DEAL-300K访问。 |
| 2025-11-28 | Optimizing Multimodal Language Models through Attention-based Interpretability | null | 现代大型语言模型变得多模态,能够分析文本和图像等各种数据格式。尽管微调对于使多模态语言模型(MLM)适应下游任务非常有效,但全量微调的计算成本很高。参数高效微调(PEFT)方法通过仅训练模型权重的一小部分来解决此问题。然而,MLM难以解释,这使得识别哪些组件对于训练最有效以平衡效率和性能变得具有挑战性。我们提出了一种基于注意力的MLM可解释性方法,通过分析相对于图像token的注意力分数来实现。核心思想是识别专注于图像关键对象的注意力头。我们利用这些信息来选择多模态模型中用于PEFT的最优模型组件。我们的贡献包括一种识别与图像关键对象相关的注意力头的方法、其在图像字幕PEFT中的应用,以及创建一个包含图像、关键对象掩码及其文本描述的新数据集。我们在具有2-30亿参数的MLM上进行了实验,以验证该方法的有效性。通过计算头影响力(HI)分数,我们量化了一个注意力头对关键对象的关注程度,表明其在图像理解中的重要性。我们的微调实验表明,与预训练的、随机选择的或HI分数最低的层相比,调整具有最高HI分数的层会导致指标最显著的变化。这表明,在这些关键层中微调一小部分(约0.01%)参数可以显著影响图像理解能力。 |
| 2025-11-28 | Chart2Code-MoLA: Efficient Multi-Modal Code Generation via Adaptive Expert Routing | null | 图表到代码生成是自动化数据可视化中的一项关键任务,它将复杂的图表结构转换为可执行程序。尽管最近的多模态大语言模型(MLLMs)提升了图表表示能力,但现有方法在实现跨类型泛化、内存效率和模块化设计方面仍面临挑战。为解决这些挑战,本文提出了 C2C-MoLA,这是一个结合了专家混合(MoE)和低秩适应(LoRA)的多模态框架。MoE 组件采用复杂度感知路由机制,通过领域专业专家和负载均衡的稀疏门控,根据可学习的结构度量(如元素数量和图表复杂度)动态分配输入。LoRA 实现了参数高效的更新,适用于资源受限的微调,并通过量身定制的训练策略进一步支持,该策略使路由稳定性与语义准确性保持一致。在 Chart2Code-160k 上的实验表明,与标准微调和仅 LoRA 基线相比,所提出的模型将生成准确率提高了高达 17%,峰值 GPU 内存减少了 18%,收敛速度加快了 20%,尤其是在复杂图表上表现更佳。消融研究验证了最优设计,例如 8 个专家和秩为 8 的 LoRA,并证实了其在真实世界多模态代码生成中的可扩展性。 |
| 2025-11-28 | Toward Automatic Safe Driving Instruction: A Large-Scale Vision Language Model Approach | null | 大规模视觉语言模型(LVLMs)在需要视觉信息的任务(包括目标检测)中展现出先进能力。这些能力在各种工业领域(例如自动驾驶)中具有广阔的应用前景。例如,LVLMs可以生成由面向道路的摄像头捕获的视频的面向安全的描述。然而,确保全面安全也需要监控面向驾驶员的视图,以检测危险事件,例如驾驶时使用手机。因此,处理来自面向驾驶员和面向道路的摄像头同步输入的能力是必要的。在本研究中,我们通过构建一个数据集并在该数据集上评估LVLMs的性能,从而开发了模型并研究了LVLMs的能力。我们的实验结果表明,尽管预训练的LVLMs效果有限,但微调后的LVLMs可以生成准确且具有安全意识的驾驶指令。尽管如此,仍然存在一些挑战,尤其是在视频中检测细微或复杂的事件方面。我们的发现和错误分析提供了宝贵的见解,可以促进该领域基于LVLM的系统的改进。 |
| 2025-11-26 | Canvas-to-Image: Compositional Image Generation with Multimodal Controls | link | 尽管现代扩散模型在生成高质量和多样化图像方面表现出色,但它们在实现高保真构图和多模态控制方面仍然面临挑战,尤其是在用户同时指定文本提示、主体参考、空间布局、姿态约束和布局标注时。我们引入了Canvas-to-Image,这是一个统一的框架,它将这些异构控制整合到一个单一的画布界面中,使用户能够生成忠实反映其意图的图像。我们的核心思想是将多样化的控制信号编码到一个单一的复合画布图像中,模型可以直接解释该图像以实现集成的视觉空间推理。我们进一步整理了一套多任务数据集,并提出了一种多任务画布训练策略,该策略优化扩散模型,使其在一个统一的学习范式内联合理解并将异构控制整合到文本到图像生成中。这种联合训练使Canvas-to-Image能够跨多个控制模态进行推理,而不是依赖于特定任务的启发式方法,并且它在推理过程中能够很好地泛化到多控制场景。大量实验表明,Canvas-to-Image在身份保留和控制依从性方面显著优于最先进的方法,并在包括多人构图、姿态控制构图、布局约束生成和多控制生成等具有挑战性的基准测试中表现出色。 |
| 2025-11-26 | G $^2$VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning | null | 视觉-语言模型(VLM)在空间智能方面仍然缺乏鲁棒性,在空间理解和推理任务上表现不佳。我们将这一差距归因于缺乏能够从2D图像重建3D空间的视觉几何学习过程。我们提出了G$^2$VLM,一个基于几何的视觉-语言模型,它弥合了空间智能的两个基本方面:空间3D重建和空间理解。G$^2$VLM原生利用学习到的3D视觉几何特征,直接预测3D属性,并通过上下文学习和交错推理增强空间推理任务。我们统一的设计对于空间理解具有高度可扩展性:它在丰富的多视图图像和视频数据上进行训练,同时利用通常只能从难以收集的标注中获得的3D视觉先验的优势。实验结果表明,G$^2$VLM在这两项任务中都表现出色,取得了与最先进的前馈3D重建模型相当的结果,并在空间理解和推理任务中取得了更好或具有竞争力的结果。通过将语义强大的VLM与低级3D视觉任务相结合,我们希望G$^2$ VLM能为社区提供一个强大的基线,并开启更多未来的应用,例如3D场景编辑。 |
| 2025-11-26 | Agentic Learner with Grow-and-Refine Multimodal Semantic Memory | link | 多模态大语言模型(MLLM)在独立查询上展现出强大的推理能力,但它们通常从头开始运行——独立解决每个问题,并经常重复犯同样的错误。现有的记忆增强型智能体主要存储过去的轨迹以供重用。然而,基于轨迹的记忆存在简洁性偏差,会逐渐丢失重要的领域知识。更关键的是,即使在真正的多模态问题解决场景中,它也只记录了过去行为的单模态痕迹,未能保留视觉注意力和逻辑推理如何共同促成解决方案。这与人类认知从根本上不符:语义记忆既是多模态的又是整合的,通过协调但独立的表征流保留视觉和抽象知识。因此,我们引入了ViLoMem,一个双流记忆框架,它构建紧凑的、基于模式的记忆。它分别编码视觉干扰模式和逻辑推理错误,使多模态大语言模型能够从其成功和失败的经验中学习。遵循增长-精炼原则,该系统逐步积累和更新多模态语义知识——在保留稳定、可泛化策略的同时,避免了灾难性遗忘。在六个多模态基准测试中,ViLoMem持续提升了pass@1准确率,并大幅减少了重复的视觉和逻辑错误。消融实验证实了具有明确干扰-幻觉分离的双流记忆的必要性,展示了错误感知的多模态记忆对于终身和跨领域智能体学习的价值。我们的项目页面将发布在 https://weihao-bo.github.io/ViLoMeo-page。 |
| 2025-11-26 | Attention-Guided Patch-Wise Sparse Adversarial Attacks on Vision-Language-Action Models | null | 近年来,具身智能领域的视觉-语言-动作(VLA)模型发展迅速。然而,现有的对抗攻击方法需要成本高昂的端到端训练,并且通常会产生明显的扰动补丁。为解决这些局限性,我们提出了ADVLA,一个直接将从视觉编码器投影到文本特征空间的特征施加对抗性扰动的框架。ADVLA在低幅度约束下能有效扰乱下游动作预测,并且通过注意力引导使扰动既集中又稀疏。我们引入了三种策略来增强敏感性、强制稀疏性并集中扰动。实验表明,在 |
| 2025-11-26 | Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following | link | 大型多模态模型(LMMs)因其强大的指令遵循能力和与人类偏好的一致性,正越来越多地被采纳为多模态评估系统中的评判员。然而,它们遵循多样化、细粒度评估标准的能力仍未得到充分探索。我们开发了Multi-Crit,一个用于评估多模态评判员遵循多元化标准并产生可靠标准级判断能力的基准。Multi-Crit涵盖了开放式生成和可验证推理任务,通过一个严格的数据整理流程构建,该流程收集了带有多个标准人工标注的具有挑战性的响应对。它进一步引入了三个新颖的指标,用于系统地评估多元化遵循能力、标准切换灵活性以及识别标准级偏好冲突的能力。对25个LMM进行全面分析表明:1)专有模型在维持对多元化标准的一致遵循方面仍然面临困难——尤其是在开放式评估中;2)开源模型在灵活遵循多样化标准方面进一步落后;3)使用整体判断信号的评判器微调增强了视觉基础能力,但未能泛化到多元化标准级判断。对推理微调、测试时扩展以及开源模型和专有模型之间边界一致性的额外分析,进一步探究了当前多模态评判员的局限性。作为一项开创性研究,Multi-Crit为构建可靠且可控的多模态AI评估奠定了基础。 |
| 2025-11-26 | Qwen3-VL Technical Report | null | 我们介绍了Qwen3-VL,它是迄今为止通义千问系列中最强大的视觉语言模型,在广泛的多模态基准测试中取得了卓越性能。它原生支持高达256K词元的交错上下文,无缝整合文本、图像和视频。该模型家族包含稠密型(2B/4B/8B/32B)和专家混合(30B-A3B/235B-A22B)两种变体,以适应不同的延迟-质量权衡需求。Qwen3-VL具备三大核心支柱:(i) 显著更强的纯文本理解能力,在某些情况下超越了可比的纯文本骨干模型;(ii) 强大的长上下文理解能力,为文本和交错多模态输入提供原生256K词元窗口,能够忠实地保留、检索和交叉引用长文档和视频;以及(iii) 跨单图、多图和视频任务的高级多模态推理能力,在MMMU和视觉-数学基准(例如MathVista和MathVision)等综合评估中表现出领先性能。在架构上,我们引入了三项关键升级:(i) 增强型交错MRoPE,用于在图像和视频中实现更强的时空建模;(ii) DeepStack集成,有效利用多层ViT特征来加强视觉-语言对齐;以及(iii) 基于文本的视频时间对齐,从T-RoPE发展为显式文本时间戳对齐,以实现更精确的时间定位。在可比的词元预算和延迟限制下,Qwen3-VL在稠密和专家混合(MoE)两种架构中均实现了卓越性能。我们设想Qwen3-VL将作为实际工作流中基于图像的推理、智能体决策和多模态代码智能的基础引擎。 |
| 2025-11-26 | Automated Protein Motif Localization using Concept Activation Vectors in Protein Language Model Embedding Space | null | 我们提出了一种自动化方法,用于识别和注释蛋白质序列中的基序和结构域,该方法使用预训练蛋白质语言模型(PLM)和概念激活向量(CAV),后者借鉴自计算机视觉领域的可解释性研究。我们将基序视为概念实体,并通过训练简单的线性分类器来区分包含基序的序列和不含基序的序列,从而在PLM嵌入空间中通过学习到的CAV来表示这些基序。为了识别基序出现位置,我们提取重叠序列窗口的嵌入,并计算它们与基序CAV的内积。这种评分机制量化了每个序列区域表达基序概念的强度,并能自然地检测出同一蛋白质中同一基序的多个实例。使用一个包含六十九个特征明确的基序数据集,该数据集带有经过整理的阳性和阴性样本,我们的方法对于强烈表达该概念的片段实现了超过85%的F1分数,并能准确地定位跨越不同蛋白质家族的基序位置。由于每个基序都由一个单一向量编码,基序检测仅需要预训练PLM和一个轻量级的CAV字典,从而为自动化序列注释提供了一个可扩展、可解释且计算高效的框架。 |
| 2025-11-26 | Multimodal Robust Prompt Distillation for 3D Point Cloud Models | link | 对抗性攻击对基于学习的3D点云模型构成了重大威胁,严重损害了它们在安全敏感应用中的可靠性。现有防御方法普遍存在(1)高计算开销和(2)对多样化攻击类型泛化能力差的问题。为弥补这些不足,我们提出了一种新颖而高效的教师-学生框架,即多模态鲁棒提示蒸馏(MRPD),用于蒸馏鲁棒3D点云模型。它通过将学生点云模型的特征与来自三个不同教师模型的鲁棒嵌入对齐来学习轻量级提示,这三个教师模型分别是:一个处理深度投影的视觉模型、一个高性能3D模型和一个文本编码器。为确保可靠的知识迁移,这种蒸馏由一个置信度门控机制引导,该机制动态平衡所有输入模态的贡献。值得注意的是,由于蒸馏完全在训练阶段进行,推理时没有额外的计算开销。大量实验表明,MRPD在应对广泛的白盒和黑盒攻击方面显著优于最先进的防御方法,甚至在干净数据上实现了更好的性能。我们的工作提出了一种通过高效利用多模态知识构建鲁棒3D视觉系统的新颖实用范式。 |
| 2025-11-26 | VacuumVLA: Boosting VLA Capabilities via a Unified Suction and Gripping Tool for Complex Robotic Manipulation | null | 视觉-语言-动作模型通过利用大规模预训练的视觉和语言表征,显著推动了通用机器人操作的发展。在现有方法中,大多数当前的VLA系统采用平行双指夹持器作为其默认末端执行器。然而,此类夹持器在处理某些现实世界任务时面临固有局限性,例如擦拭玻璃表面或打开无把手抽屉,原因在于接触面积不足或缺乏附着力。为了克服这些挑战,我们提出了一种低成本的集成硬件设计,它将机械双指夹持器与真空吸盘单元相结合,在单个末端执行器内实现了双模态操作。我们的系统支持两种模态的灵活切换或协同使用,扩展了可行任务的范围。我们在DexVLA和Pi0这两个最先进的VLA框架中验证了我们设计的效率和实用性。实验结果表明,采用所提出的混合末端执行器,机器人可以成功执行多个仅靠传统双指夹持器无法完成的复杂任务。所有硬件设计和控制系统都将被发布。 |
| 2025-11-26 | $\mathcal{E}_0$ : Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion | null | 视觉-语言-动作 (VLA) 模型通过整合视觉感知、语言理解和控制生成,为机器人操作提供了一个统一框架。然而,现有VLA模型在泛化到不同任务、场景和摄像机视角方面仍面临挑战,并且经常产生粗糙或不稳定的动作。我们引入了E0,一个连续化的离散扩散框架,它将动作生成表述为对量化动作令牌的迭代去噪。与连续扩散策略相比,E0具有两个关键优势:(1) 离散动作令牌与预训练VLM/VLA骨干网络的符号结构自然对齐,从而实现更强的语义条件作用;(2) 离散扩散与真实世界机器人控制的固有量化特性相匹配——其硬件约束(例如,编码器分辨率、控制频率、执行延迟)本质上离散化了连续信号——因此受益于能够建模正确离散动作分布的贝叶斯最优去噪器,从而实现更强的泛化能力。与离散自回归和基于掩码的离散扩散模型相比,E0支持显著更大、更细粒度的动作词汇,并避免了基于掩码的损坏引入的分布不匹配,从而实现更精确的细粒度动作控制。我们进一步引入了一种球形视角扰动增强方法,以在不使用额外数据的情况下提高对摄像机位移的鲁棒性。在LIBERO、VLABench和ManiSkill上的实验表明,E0在14个不同环境中均实现了最先进的性能,平均超越强大基线10.7%。在Franka机械臂上的真实世界评估证实,E0提供了精确、鲁棒和可迁移的操作,将离散扩散确立为可泛化VLA策略学习的一个有前景的方向。 |
| 2025-11-25 | RubricRL: Simple Generalizable Rewards for Text-to-Image Generation | null | 强化学习(RL)近期已成为一种很有前途的方法,用于使文本到图像生成模型与人类偏好对齐。然而,一个关键挑战在于设计有效且可解释的奖励。现有方法通常依赖于具有固定权重的复合指标(例如,CLIP、OCR和真实感分数),或者从人类偏好模型中提炼出的单一标量奖励,这会限制可解释性和灵活性。我们提出了RubricRL,一个简单且通用的基于评分标准的奖励设计框架,它提供了更强的可解释性、可组合性和用户控制。RubricRL没有使用黑盒标量信号,而是为每个提示动态构建一个结构化的评分标准——一个可分解的细粒度视觉标准清单,例如物体正确性、属性准确性、OCR保真度和真实感——并根据输入文本量身定制。每个标准都由一个多模态判断器(例如o4-mini)独立评估,并且一个提示自适应的加权机制强调最相关的维度。这种设计不仅为策略优化(例如GRPO或PPO)产生了可解释和模块化的监督信号,而且还使用户能够直接调整奖励或惩罚哪些方面。使用自回归文本到图像模型进行的实验表明,RubricRL改进了提示忠实度、视觉细节和泛化能力,同时为跨文本到图像架构的可解释RL对齐提供了一个灵活且可扩展的基础。 |
| 2025-11-25 | MedROV: Towards Real-Time Open-Vocabulary Detection Across Diverse Medical Imaging Modalities | link | 传统的医学影像目标检测模型在封闭集范式下运行,限制了它们检测新标签对象的能力。开放词汇目标检测(OVOD)解决了这一限制,但由于数据集稀缺和弱文本-图像对齐,其在医学影像领域仍未得到充分探索。为了弥合这一差距,我们引入了MedROV,这是首个用于医学影像的实时开放词汇检测模型。为了实现开放词汇学习,我们构建了一个大规模数据集Omnis,包含九种成像模态的60万个检测样本,并引入了一种伪标签策略来处理多源数据集中缺失的标注。此外,我们通过整合来自大型预训练基础模型的知识来增强泛化能力。通过利用对比学习和跨模态表示,MedROV能够有效检测已知和新颖的结构。实验结果表明,MedROV的平均绝对提升达到40 mAP50,优于先前最先进的医学图像检测基础模型,并且超越封闭集检测器3 mAP50以上,同时以70 FPS的速度运行,在医学检测领域树立了新的基准。我们的源代码、数据集和训练模型可在https://github.com/toobatehreem/MedROV获取。 |
| 2025-11-25 | LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight | null | 模型若要在世界中行动,必须能够识别其所见,并了解其在3D空间中的位置。当前的视觉-语言模型 (VLM) 擅长开放式2D描述和定位,但多目标3D检测在VLM工具箱中仍大部分缺失。我们提出了LocateAnything3D,这是一种VLM原生方案,将3D检测视为一个下一词元预测问题。关键在于一个简短、明确的“视觉链 (Chain-of-Sight, CoS)”序列,它模仿了人类从图像中推理的方式:在2D中找到一个物体,然后推断其距离、大小和姿态。解码器首先输出2D检测结果作为“视觉思维链”,然后在一个由易到难的课程下预测3D边界框:对于不同物体,采用从近到远的顺序减少早期歧义并符合以自我为中心的实用性;在每个物体内部,通过“从相机中心、尺寸和旋转”的分解,根据稳定性和可学习性对信息进行排序。这种VLM原生接口保留了开放词汇和视觉提示能力,无需专门的头部。在富有挑战性的Omni3D基准测试中,我们的模型取得了最先进的结果,达到49.89 AP_3D,绝对提升了15.51,超越了此前的最佳成绩,即使基线模型提供了真实2D边界框。它还能够零样本泛化到未见过的类别,具有强大的鲁棒性。通过将3D检测转化为一个规范的下一词元问题,LocateAnything3D为模型在3D空间中感知提供了实用的基础。 |
| 2025-11-25 | Vision-Language Memory for Spatial Reasoning | null | 空间推理是智能机器人的一个关键能力,然而,当前的视觉-语言模型(VLM)在基于视频的空间推理方面仍未达到人类水平的性能。这种差距主要源于两个挑战:阻碍了一致3D理解的语义-几何错位,以及缺乏持久记忆以随时间推移保留3D表示和理解。为了解决这些局限性,我们提出了VLM |
| 2025-11-25 | Concept-Aware Batch Sampling Improves Language-Image Pretraining | null | 视觉语言模型应该在哪些数据上进行训练?为了回答这个问题,许多数据整理工作都集中在数据集的质量上。然而,现有的大多数方法都是 (i) 离线的,即它们根据一组预设的过滤标准生成静态数据集;(ii) 概念无关的,即它们使用基于模型的过滤器,这会引入额外的数据偏差。在这项工作中,我们超越了这些离线、概念无关的方法,提倡更灵活、任务自适应的在线、基于概念的数据整理。我们的首个贡献是DataConcept,这是一个包含1.28亿网络爬取图像-文本对的集合,并标注了关于其概念构成的细粒度信息。基于DataConcept,我们引入了概念感知批次采样(CABS),这是一个简单而有效的批次采样框架,能够根据特定的目标分布灵活地实时构建批次。我们提出了两种变体:(i) 多样性最大化(CABS-DM),用于整理出覆盖广泛可用概念的批次;以及 (ii) 频率最大化(CABS-FM),用于整理出具有高对象多重性的批次。通过在28个基准测试中进行的大量评估,我们证明了CABS方法显著有益于CLIP/SigLIP模型类别,并能产生高性能模型。总而言之,CABS是专有在线数据整理算法的强大开源替代方案,使实践者能够定义自定义概念分布,从而优化特定下游任务。 |
| 2025-11-25 | Unleashing the Power of Vision-Language Models for Long-Tailed Multi-Label Visual Recognition | null | 长尾多标签视觉识别是一个重大挑战,因为图像通常包含多个标签,且类别分布高度不平衡,导致模型产生偏向性,偏爱头部类别而对尾部类别表现不佳。最近的研究利用预训练的视觉-语言模型(如CLIP)结合长尾学习技术,以利用丰富的视觉-文本先验知识来提升性能。然而,现有方法通常直接从不平衡数据集中推导语义类间关系,由于数据稀缺导致尾部类别的相关性不可靠。此外,CLIP的零样本范式是针对单标签图像-文本匹配进行优化的,这使其对多标签任务来说并非最优。为了解决这些问题,我们提出了相关性自适应提示网络(CAPNET),这是一个新颖的端到端框架,它显式地从CLIP的文本编码器中建模标签相关性。该框架结合了图卷积网络用于标签感知传播,以及可学习的软提示用于精炼嵌入。它利用带有类别感知重加权的分布平衡Focal损失,以优化在不平衡条件下的训练。此外,它通过测试时集成提高了泛化能力,并使用参数高效微调重新对齐视觉-文本模态,从而避免了尾部类别过拟合,同时不损害头部类别性能。在包括VOC-LT、COCO-LT和NUS-WIDE在内的基准数据集上进行的大量实验和消融研究表明,CAPNET在最先进的方法上取得了显著提升,验证了其在真实世界长尾多标签视觉识别中的有效性。 |
| 2025-11-25 | Reinforcing Action Policies by Prophesying | null | 视觉-语言-动作 (VLA) 策略在对齐语言、感知和机器人控制方面表现出色。然而,大多数 VLA 纯粹通过模仿进行训练,这会导致对演示过度拟合,并在分布偏移下表现脆弱。强化学习 (RL) 直接优化任务奖励,从而解决了这种不对齐问题,但真实机器人交互成本高昂,且传统模拟器难以工程化和迁移。我们通过一个学习型世界模型和一种针对基于流的动作头量身定制的强化学习过程,解决了 VLA 后训练中的数据效率和优化稳定性问题。具体来说,我们引入了 Prophet,这是一种统一的动作到视频机器人驱动模型,它在海量异构机器人数据上进行预训练,以学习可重用的动作-结果动态。它能够进行少样本适应,以适应新的机器人、物体和环境,从而产生了一个可用于推演的模拟器。基于 Prophet,我们使用流动作-GRPO (FA-GRPO) 强化动作策略,FA-GRPO 适配 Flow-GRPO 以在 VLA 动作上操作;同时使用 FlowScale,这是一种分步重新加权方法,可重新缩放流头中每步的梯度。Prophet、FA-GRPO 和 FlowScale 共同构成了 ProphRL,这是一种实用、数据和计算高效的 VLA 后训练途径。实验表明,在公共基准上成功率提高了 5-17%,在不同 VLA 变体下的真实机器人上取得了 24-30% 的提升。 |
| 2025-11-25 | MapReduce LoRA: Advancing the Pareto Front in Multi-Preference Optimization for Generative Models | null | 结合奖励模型的人类反馈强化学习 (RLHF) 推动了生成模型与人类审美和感知偏好的对齐。然而,联合优化多个奖励常常带来对齐代价,即提升一个维度却损害其他维度。为解决此问题,我们引入了两种互补方法:MapReduce LoRA 和奖励感知词元嵌入 (RaTE)。MapReduce LoRA 并行训练偏好特定的 LoRA 专家模型,并迭代地合并它们以优化共享的基础模型;RaTE 学习奖励特定的词元嵌入,这些嵌入在推理时组合以实现灵活的偏好控制。在文本到图像生成任务上进行的实验(使用 Stable Diffusion 3.5 Medium 和 FLUX.1-dev 模型)显示,GenEval、PickScore 和 OCR 指标分别提升了 36.1%、4.6% 和 55.7%,以及 32.7%、4.3% 和 67.1%。在文本到视频生成任务上(使用 HunyuanVideo 模型),视觉和运动质量分别提升了 48.1% 和 90.0%。在语言任务“有用助手”上,使用 Llama-2 7B 模型,有用性和无害性分别提升了 43.4% 和 136.7%。我们的框架确立了一种新的跨模态最先进多偏好对齐方案。 |
| 2025-11-25 | Fighting AI with AI: Leveraging Foundation Models for Assuring AI-Enabled Safety-Critical Systems | null | AI组件,特别是深度神经网络(DNN),集成到航空航天和自动驾驶汽车等安全关键系统中,给保障带来了根本性挑战。AI系统的黑箱特性,结合高层级需求与低层级网络表示之间的语义鸿沟,阻碍了传统验证方法。这些AI特有的挑战,因需求工程中长期存在的问题而加剧,包括自然语言规范的模糊性以及形式化过程中的可扩展性瓶颈。我们提出了一种方法,利用AI本身通过两个互补的组件来解决这些挑战。REACT(基于AI的需求工程,旨在实现一致性和测试)采用大型语言模型(LLMs)来弥合非正式自然语言需求与形式化规范之间的鸿沟,从而实现早期验证和确认。SemaLens(使用大型多模态模型进行视觉感知的语义分析)利用视觉语言模型(VLMs),使用人类可理解的概念对基于DNN的感知系统进行推理、测试和监控。这些组件共同提供了一个从非正式需求到经过验证的实现的全面流程。 |
| 2025-11-25 | The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment | null | 以往工作探索了给定参考图像的各种定制化生成任务,但在生成一致的细粒度细节方面仍面临局限性。本文旨在通过应用一种参考引导的后编辑方法来解决生成图像的不一致性问题,并提出了我们的ImageCritic。我们首先构建了一个通过基于VLM的选择和显式降质获得的参考-降质-目标三元组数据集,该数据集有效模拟了现有生成模型中常见的误差或不一致性。此外,在彻底检查模型注意力机制和内在表示的基础上,我们相应地设计了一种注意力对齐损失和一个细节编码器,以精确纠正不一致性。ImageCritic可以集成到代理框架中,以在复杂场景中通过多轮和局部编辑自动检测并纠正不一致性。大量实验表明,ImageCritic能有效解决各种定制化生成场景中的细节相关问题,相较于现有方法提供了显著改进。 |
| 2025-11-21 | RynnVLA-002: A Unified Vision-Language-Action and World Model | null | 我们引入RynnVLA-002,一个统一的视觉-语言-动作 (VLA) 和世界模型。世界模型利用动作和视觉输入来预测未来的图像状态,学习环境的底层物理规律以优化动作生成。反之,VLA模型基于图像观测生成后续动作,增强了视觉理解并支持了世界模型的图像生成。RynnVLA-002的统一框架实现了环境动力学和动作规划的联合学习。我们的实验表明,RynnVLA-002超越了单独的VLA模型和世界模型,证明了它们之间的相互增强。我们在模拟和现实世界的机器人任务中评估了RynnVLA-002。RynnVLA-002在未经预训练的情况下,在LIBERO模拟基准测试中取得了97.4%的成功率,而在现实世界的LeRobot实验中,其集成的世界模型将整体成功率提高了50%。 |
| 2025-11-21 | Native 3D Editing with Full Attention | null | 指令引导的3D编辑是一个快速兴起的领域,具有拓宽3D内容创作途径的潜力。然而,现有方法面临关键局限:基于优化的方法速度慢得令人望而却步,而依赖多视角2D编辑的前馈方法则常遭受几何不一致和视觉质量下降的问题。为解决这些问题,我们提出了一种新颖的原生3D编辑框架,能够在一次高效的前馈过程中直接操作3D表示。具体而言,我们创建了一个用于指令引导的3D编辑的大规模多模态数据集,涵盖了多种添加、删除和修改任务。该数据集经过精心策划,以确保编辑后的对象忠实遵循指令性更改,同时保持未编辑区域与源对象的一致性。基于此数据集,我们探索了两种不同的模型条件化策略:传统的交叉注意力机制和一种新颖的3D token拼接方法。我们的结果表明,token拼接方法参数效率更高并实现了卓越的性能。大量评估显示,我们的方法优于现有2D提升方法,在生成质量、3D一致性和指令保真度方面设定了新基准。 |
| 2025-11-21 | Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination | null | 理解富文本视频需要阅读细小、短暂的文本线索,这些线索通常需要反复检查。然而,大多数视频问答模型依赖于对固定帧的单次感知,这导致了幻觉和在细粒度证据上的失败。受人类暂停、放大和重读关键区域方式的启发,我们引入了Video-R4(通过视觉反刍强化富文本视频推理),这是一个执行视觉反刍的视频推理大规模多模态模型:它迭代选择帧、放大信息区域、重新编码检索到的像素并更新其推理状态。我们构建了两个包含可执行反刍轨迹的数据集:用于监督训练的Video-R4-CoT-17k和用于强化学习的Video-R4-RL-30k。我们提出了一种多阶段反刍学习框架,该框架通过监督微调(SFT)和基于GRPO的强化学习逐步微调一个7B大规模多模态模型,以学习原子和混合视觉操作。Video-R4-7B在M4-ViteVQA上取得了最先进的结果,并进一步泛化到多页文档问答、幻灯片问答和通用视频问答,这表明迭代反刍是一种有效的像素级多模态推理范式。 |
| 2025-11-21 | Downscaling Intelligence: Exploring Perception and Reasoning Bottlenecks in Small Multimodal Models | link | 扩大多模态模型规模已在视觉理解和推理方面取得了显著进展,但实际需求呼唤更小、更高效的系统。在这项工作中,我们对多模态模型中的智能缩减进行了系统性分析,考察了大型语言模型(LLM)容量缩减如何影响多模态能力。我们的初步发现揭示了一个有趣的趋势:LLM的缩减不成比例地影响视觉能力,而非从LLM继承的能力。我们随后考察了这一下降是否主要反映了视觉推理的预期下降,亦或是感知能力的更根本性丧失。在隔离LLM缩减对感知的影响后,我们发现性能仍急剧下降,其影响往往与对推理的影响相当或甚至超过。为解决这一瓶颈,我们引入了视觉提取微调,它明确训练模型在不同任务中一致地提取与指令相关的视觉细节。利用这些提取出的视觉细节,我们随后应用逐步推理来生成答案。这些组件共同构成了我们的“提取+思考”(Extract+Think)方法,在该领域为效率和性能设定了新标准。 |
| 2025-11-21 | Enhancing Quranic Learning: A Multimodal Deep Learning Approach for Arabic Phoneme Recognition | null | 多模态深度学习的最新进展极大地增强了语音分析和发音评估系统的能力。准确的发音检测在阿拉伯语中仍然是一个关键挑战,特别是在《古兰经》诵读的语境下,因为细微的语音差异可能改变含义。为解决这一挑战,本研究提出了一个基于Transformer的多模态框架,用于阿拉伯语音素错读检测,该框架结合了声学和文本表示,以实现更高的精度和鲁棒性。该框架集成了源自UniSpeech的声学嵌入和从Whisper转录中提取的基于BERT的文本嵌入,创建了一个能够同时捕捉语音细节和语言上下文的统一表示。为了确定最有效的集成策略,本研究实施并评估了早期、中期和晚期融合方法,并在包含29个阿拉伯语音素(包括八个哈菲兹音)的两个数据集上进行了验证,这些音素由11位母语使用者发音。本研究还纳入了从公开的YouTube录音中收集的额外语音样本,以增强数据多样性和泛化能力。模型性能通过准确率、精确率、召回率和F1分数等标准评估指标进行评估,从而能够对融合策略进行详细比较。实验结果表明,UniSpeech-BERT多模态配置表现出优异性能,并且基于融合的Transformer架构对于音素级别的错读检测是有效的。本研究有助于开发智能的、与说话人无关的、多模态的计算机辅助语言学习(CALL)系统,为技术支持的《古兰经》发音训练和更广泛的基于语音的教育应用迈出了实用的一步。 |
| 2025-11-21 | MMT-ARD: Multimodal Multi-Teacher Adversarial Distillation for Robust Vision-Language Models | null | 视觉-语言模型 (VLMs) 越来越多地部署在安全关键应用中,这使得它们的对抗鲁棒性成为一个至关重要的问题。尽管对抗知识蒸馏在将鲁棒性从教师模型迁移到学生模型方面展现出潜力,但传统的单教师方法面临知识多样性有限、收敛速度慢以及难以平衡鲁棒性和准确性等问题。为解决这些挑战,我们提出了MMT-ARD:一个多模态多教师对抗鲁棒蒸馏框架。我们的关键创新是一个双教师知识融合架构,它协同优化干净特征保留和鲁棒特征增强。为了更好地处理具有挑战性的对抗样本,我们引入了一种基于教师置信度的动态权重分配策略,从而能够自适应地关注更难的样本。此外,为了减轻教师之间的偏差,我们设计了一种自适应的基于sigmoid的加权函数,以平衡跨模态知识迁移的强度。在ImageNet和零样本基准测试上进行的广泛实验表明,MMT-ARD在ViT-B-32模型上将鲁棒准确性提高了4.32%,零样本准确性提高了3.5%,同时相较于传统的单教师方法,训练效率提升了2.3倍。这些结果突出了MMT-ARD在增强多模态大模型对抗鲁棒性方面的有效性和可扩展性。我们的代码可在https://github.com/itsnotacie/MMT-ARD获取。 |
| 2025-11-21 | REMSA: An LLM Agent for Foundation Model Selection in Remote Sensing | null | 基础模型(FMs)正越来越多地应用于遥感(RS)领域,执行环境监测、灾害评估和土地利用测绘等任务。这些模型包括在单一数据模态上训练的单模态视觉编码器,以及在合成孔径雷达、多光谱、高光谱和图像-文本数据组合上训练的多模态架构。它们支持各种遥感任务,包括语义分割、图像分类、变化检测和视觉问答。然而,由于文档分散、格式异构和部署约束多样,选择合适的遥感基础模型(RSFM)仍然困难。我们引入了RSFM数据库(RS-FMD),这是一个结构化资源,涵盖了超过150个RSFM,跨越多种数据模态、分辨率和学习范式。基于RS-FMD,我们提出了REMSA,这是首个基于LLM的智能体,用于从自然语言查询中自动化选择RSFM。REMSA能够解释用户需求、解决缺失约束、利用上下文学习对候选模型进行排序,并提供透明的理由。我们还提出了一个包含75个专家验证的遥感查询场景的基准,在以专家为中心的评估协议下生成了900种配置。REMSA优于多个基线,包括朴素智能体、密集检索和非结构化RAG(检索增强生成)的LLM。它完全基于公开可用的元数据运行,不访问私有或敏感数据。 |
| 2025-11-21 | SPEAR-1: Scaling Beyond Robot Demonstrations via 3D Understanding | null | 机器人基础模型(RFM)作为通用型、端到端的机器人控制系统,具有巨大的潜力。然而,它们在新环境、任务和具身形态之间的泛化能力仍然有限。我们认为一个主要瓶颈在于它们的基础:大多数RFM是通过微调互联网预训练的视觉-语言模型(VLM)构建的。然而,这些VLM是在2D图像-语言任务上训练的,缺乏3D世界中具身控制固有需要的3D空间推理能力。直接使用大规模机器人数据来弥合这一差距成本高昂且难以扩展。相反,我们提出通过3D标注来丰富易于收集的非机器人图像数据,并增强预训练VLM的3D理解能力。遵循这一策略,我们训练了SPEAR-VLM,这是一个能够从单个2D图像中推断3D空间中物体坐标的3D感知VLM。在SPEAR-VLM的基础上,我们介绍了我们的主要贡献SPEAR-1:一个将基础3D感知与语言指令具身控制相结合的机器人基础模型。SPEAR-1在约4500万帧来自24个Open X-Embodiment数据集上进行训练,其性能超越或匹敌了 |
| 2025-11-21 | Beyond Multiple Choice: A Hybrid Framework for Unifying Robust Evaluation and Verifiable Reasoning Training | null | 多项选择题问答(MCQA)一直是评估和强化微调(RFT)现代多模态语言模型的流行格式。其受限的输出格式允许进行简化、确定性的自动验证。然而,我们发现选项可能会泄露可利用的信号,这使得准确性指标在指示真实能力方面不可靠,并鼓励在RFT期间产生显性或隐性的答案猜测行为。我们提出了ReVeL(通过LLM重写和验证),这是一个将多项选择题重写为开放式问题,并在可能的情况下保持答案可验证的框架。该框架根据不同的答案类型对问题进行分类,并分别应用不同的重写和验证方案。当应用于RFT时,我们转换了2万个MCQA示例,并使用GRPO微调了Qwen2.5-VL模型。在ReVeL-开放式问答(OpenQA)上训练的模型在多项选择基准测试中与MCQA准确率匹配,并将OpenQA准确率提高了约六个百分点,表明比基于MCQA的训练具有更好的数据效率和更鲁棒的奖励信号。当用于评估时,ReVeL还揭示了MCQA基准测试中高达20个百分点的分数膨胀(相对于OpenQA),提高了判断准确性,并降低了成本和延迟。我们将公开发布代码和数据。 |
| 2025-11-21 | MCMoE: Completing Missing Modalities with Mixture of Experts for Incomplete Multimodal Action Quality Assessment | link | 多模态动作质量评估 (AQA) 近来已成为一种有前景的范式。通过利用共享上下文线索中的互补信息,它增强了对高度相似动作序列中细微类内变化的判别性评估。然而,在现实中,部分模态在推理阶段常常不可用。任何模态的缺失常常导致现有的多模态模型无法运行。此外,它还会因跨模态交互中断而引发灾难性的性能下降。为了解决这个问题,我们提出了一种新颖的缺失补全与专家混合框架(MCMoE),它在单阶段训练中统一了单模态和联合表示学习。具体来说,我们提出了一种自适应门控模态生成器,它动态融合可用信息以重建缺失模态。然后,我们设计了模态专家来学习单模态知识,并动态混合所有专家的知识以提取跨模态联合表示。通过专家混合,缺失模态得到进一步细化和补充。最后,在训练阶段,我们挖掘完整的多模态特征和单模态专家知识,以指导模态生成和基于生成的联合表示提取。广泛的实验表明,我们的MCMoE在三个公共AQA基准上,在完整和不完整多模态学习方面均取得了最先进的成果。代码可在 https://github.com/XuHuangbiao/MCMoE 获取。 |
| 2025-11-20 | EvoLMM: Self-Evolving Large Multimodal Models with Continuous Rewards | null | 大型多模态模型(LMM)的近期进展使其具备了令人印象深刻的推理和感知能力,然而,大多数现有训练流水线仍然依赖人工标注数据或外部验证的奖励模型,这限制了它们的自主性和可扩展性。在这项工作中,我们致力于以纯无监督方式(不依赖任何标注数据或奖励蒸馏)提升LMM的推理能力。为此,我们提出了一个名为EvoLMM的自演化框架,该框架从单个骨干模型实例化出两个协作代理:一个提问器(Proposer),负责生成多样化的、基于图像的问题;一个解答器(Solver),通过内部一致性来解决这些问题,其中学习过程通过持续的自我奖励机制进行。这种动态反馈既促进了信息丰富的查询生成,又促进了结构化推理的完善,而不依赖于真实标签或人工判断。当使用流行的Qwen2.5-VL作为基础模型时,我们的EvoLMM仅使用原始训练图像,在包括ChartQA、MathVista和MathVision在内的多模态数学推理基准上取得了高达约3%的持续提升。我们希望我们这种简单而有效的方法将成为一个坚实的基础,从而促进未来在全无监督自改进LMM方面的研究。我们的代码和模型可在https://github.com/mbzuai-oryx/EvoLMM获取。 |
| 2025-11-20 | Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation | null | 视觉生成领域的近期进展越来越多地探索推理能力的融合。它们在生成过程之前(作为预规划)或之后(作为后细化)整合文本推理,即“思考”,但在生成过程中缺乏即时多模态交互。在这项初步研究中,我们引入了“边生成边思考”(TwiG),这是首个交错框架,它实现了文本推理在整个视觉生成过程中协同演进。随着视觉内容的逐步生成,文本推理被交错地融入,既能指导即将生成的局部区域,也能反思之前合成的区域。这种动态的相互作用产生了更具上下文感知能力和语义丰富的视觉输出。为了揭示该框架的潜力,我们研究了三种候选策略:零样本提示、在我们精心策划的TwiG-50K数据集上进行的监督微调(SFT),以及通过定制的TwiG-GRPO策略进行的强化学习(RL),每种策略都为交错推理的动态性提供了独特的见解。我们希望这项工作能启发进一步的研究,探索将文本推理交错融入以增强视觉生成。代码将在此发布:https://github.com/ZiyuGuo99/Thinking-while-Generating。 |
| 2025-11-20 | Learning to Think Fast and Slow for Visual Language Models | null | 面对复杂问题时,我们倾向于慢速思考;反之,对于简单问题,我们快速思考。这种双系统思维机制使我们能够有效分配认知资源,从而对简单问题快速做出决策,同时将更深层次的分析性思维留给更复杂的挑战。然而,现有面向推理的视觉语言模型(VLM),无论是通过显式思维链标注训练还是基于规则的强化学习(RL)奖励,主要追求冗长、详细的推理链,这通常导致过高的计算成本。在这项工作中,我们提出了一种简单的强化学习方法,该方法使VLM能够根据任务难度自动切换快慢思维模式。该方法包括两个阶段:在第一阶段,我们根据模型输出长度将数据标注为需要快思维或慢思维,这一灵感来源于预训练VLM通常针对不同类型问题产生不同长度答案的观察;在第二阶段,我们使用GRPO结合思维模式标签训练模型,以发展双模式思维。尽管其简单,我们的模型DualMindVLM显著优于基础模型,并达到了与最先进的视觉推理模型相当的性能,同时保持了极高的token效率。 |
| 2025-11-20 | Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO | link | 虽然语言模型已在许多实际应用中产生深远影响,但视频生成仍主要局限于娱乐。受视频固有的能力启发,即能够展示仅通过语言难以传达的物理世界信息(例如,想象只用文字教别人打领带),我们识别出一个未充分利用的机会,将视频扩展为下一事件预测(NEP)的一种新型回答模态,并将其正式化为视频下一事件预测(VNEP)。既有的NEP任务以带有程序性或预测性问题的视频作为输入,以文本形式预测下一事件,而VNEP则需要动态视频响应。这种从“告知”到“展示”的转变,为程序性学习和创造性探索解锁了更直观、更个性化的答案。然而,这项任务对现有模型来说仍具挑战性,因为它要求理解多模态输入、指令条件推理以及生成具有视觉和语义一致性的视频。为解决此问题,我们引入了VANS模型,该模型利用强化学习将视觉语言模型(VLM)与视频扩散模型(VDM)对齐,以实现VNEP。VANS的核心是我们提出的Joint-GRPO,它协调VLM和VDM作为一个整体运作。在各自输出的共享奖励驱动下,Joint-GRPO优化VLM以生成既准确又易于可视化的字幕,同时指导VDM生成忠实于这些字幕和输入视觉上下文的视频。为了实现这种学习,我们构建了VANS-Data-100K,一个专用于VNEP任务的数据集。在程序性和预测性基准上的实验表明,VANS在视频事件预测和可视化方面均达到了最先进的性能。代码已发布在https://github.com/KlingTeam/VANS。 |
| 2025-11-20 | Cognitive Foundations for Reasoning and Their Manifestation in LLMs | null | 大型语言模型能够解决复杂问题,却在更简单的变体上失败,这表明它们获得正确输出依赖于与人类推理根本不同的机制。我们综合认知科学研究,形成包含28个认知元素的分类体系,涵盖计算约束、元认知控制、知识表示和转换操作,然后分析它们在推理痕迹中的行为表现。我们提出了一个细粒度的认知评估框架,并首次对来自文本、视觉和音频模态的17个模型的17万条推理痕迹以及54条人类出声思考痕迹进行了大规模分析,这些痕迹已公开。我们的分析揭示了系统性的结构差异:人类采用分层嵌套和元认知监控,而模型则依赖于浅层前向链式推理,这种差异在非结构化问题上最为显著。对1598篇大型语言模型推理论文的元分析表明,研究界侧重于易于量化的行为(如顺序组织:55%,分解:60%),而忽视了与成功相关的元认知控制(如自我意识:16%,评估:8%)。模型拥有与成功相关的行为储备,但未能自发地运用它们。利用这些模式,我们开发了测试时推理引导,能够自动搭建成功结构,将复杂问题的性能提升高达60%。通过连接认知科学和大型语言模型研究,我们为开发通过有原则的认知机制进行推理的模型奠定了基础,而非脆弱的虚假推理捷径或记忆,这为提升模型能力和大规模验证人类认知理论开辟了新方向。 |
| 2025-11-20 | Comparison of Text-Based and Image-Based Retrieval in Multimodal Retrieval Augmented Generation Large Language Model Systems | null | 检索增强生成 (RAG) 的近期进展已使大型语言模型 (LLM) 能够访问包含文本和视觉信息(如金融文档中的图表、示意图和表格)的多模态知识库。然而,现有的多模态 RAG 系统在预处理阶段依赖于基于 LLM 的摘要来将图像转换为文本,仅在向量数据库中存储文本表示,这导致了上下文信息和视觉细节的丢失,而这些信息和细节对后续检索和问答至关重要。为了解决这一局限性,我们对多模态 RAG 系统的两种检索方法进行了全面的比较分析,包括基于文本块的检索(其中图像在嵌入前被摘要为文本)和直接多模态嵌入检索(其中图像以原生形式存储在向量空间中)。我们在一个新创建的金融财报电话会议基准上评估了所有三种方法,该基准包含 40 对问答,每对问答都配有 2 份文档(1 份图像和 1 个文本块),并使用 6 个 LLM 模型和两个多模态嵌入模型进行了测试。实验结果表明,直接多模态嵌入检索显著优于基于 LLM 摘要的方法,在平均精度均值 (mAP@5) 上实现了 13% 的绝对提升,并在归一化折现累积增益上实现了 11% 的绝对提升。这些提升对应于在 mAP@5 上 32% 和在 nDCG@5 上 20% 的相对提升,为它们的实际影响提供了更有力的证据。我们还发现,通过 LLM-as-a-judge 成对比较进行衡量,直接多模态检索能够产生更准确和事实一致的答案。我们证明,LLM 摘要在预处理阶段引入了信息损失,而直接多模态嵌入则保留了视觉上下文,用于检索和推理。 |
| 2025-11-20 | InternData-A1: Pioneering High-Fidelity Synthetic Data for Pre-training Generalist Policy | null | 近期工作探讨了真实数据和合成数据如何促进视觉-语言-动作(VLA)模型的泛化能力。当前VLA模型已显示出大规模真实机器人预训练的强大有效性,但合成数据此前尚未展示出可比的大规模能力。本文首次提供了证据,表明仅凭合成数据即可在VLA模型预训练中匹配最强的 |
| 2025-11-20 | Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization | null | 开发通用且多功能的具身智能系统面临两大主要挑战:关键的具身数据瓶颈(即真实世界数据稀缺且昂贵),以及现有方法算法效率低下(资源消耗巨大)。为解决这些局限,我们引入了刻意练习策略优化(DPPO),这是一种元认知“元循环”(Metaloop)训练框架,它动态地在监督微调(能力扩展)和强化学习(技能精炼)之间交替。这使得自动识别弱点和有针对性的资源分配成为可能,专门旨在最大化从稀疏有限数据中学习的效率。从理论上讲,DPPO可以被形式化为一个统一的偏好学习框架。在实践中,使用DPPO训练一个命名为Pelican-VL 1.0的视觉-语言具身模型,相比基础模型性能提升了20.3%,并超越了1000亿参数规模的开源模型10.6%。我们正在开源模型和代码,提供了第一个系统性框架,缓解了数据和资源瓶颈,并使社区能够高效地构建多功能具身智能体。 |
| 2025-11-20 | You Only Forward Once: An Efficient Compositional Judging Paradigm | null | 多模态大语言模型(MLLMs)作为评判者展现出巨大潜力。然而,现有方法面临一个根本性权衡:调整MLLMs输出单一分数与MLLMs的生成特性不符,并限制了对细粒度需求的理解;而自回归地生成评判分析在高吞吐量场景中速度极其缓慢。鉴于观察到评判可以简化为验证输入是否满足一组结构化要求,我们提出了YOFO,一种模板条件方法,可在单次前向传播中判断所有要求。YOFO基于自回归模型,接受一个结构化要求模板,并在一次推理步骤中,通过读取与每个要求相关的最终token的logits,为每个要求生成一个二元的是/否决策。这种设计实现了数量级的速度提升,同时保留了可解释性。大量实验表明,YOFO不仅在标准推荐数据集上取得了最先进的结果,而且还支持依赖感知分析——其中后续判断以前续判断为条件——并进一步受益于事后链式思考(CoT)。 |
| 2025-11-20 | TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding | link | 我们引入了TimeViper,这是一种混合视觉-语言模型,旨在解决长视频理解的挑战。处理长视频既需要高效的模型架构,也需要处理扩展时间上下文的有效机制。为此,TimeViper采用了混合Mamba-Transformer骨干网络,结合了状态空间模型的效率和注意力机制的表达能力。通过这种混合设计,我们揭示了视觉到文本的信息聚合现象,其中信息随着LLM深度的增加逐渐从视觉token流向文本token,导致严重的视觉token冗余。受此观察启发,我们提出了TransV,一个token信息传输模块,它能将视觉token传输并压缩到指令token中,同时保持多模态理解能力。这种设计使TimeViper能够处理超过10,000帧、长达数小时的视频。在多个基准上的大量实验表明,TimeViper在扩展帧数的同时能与最先进的模型竞争。我们进一步分析了Mamba层和Transformer层的注意力行为,为混合模型可解释性提供了新见解。这项工作代表着在开发、解释和压缩混合Mamba-Transformer架构方面迈出的第一步。 |
| 2025-11-18 | ARC Is a Vision Problem! | link | 抽象推理语料库 (ARC) 旨在促进对抽象推理的研究,这是人类智能的一个基本方面。常见的ARC方法将其视为一个面向语言的问题,通过大型语言模型 (LLM) 或循环推理模型来解决。然而,尽管ARC中的谜题式任务本质上是视觉的,现有研究却很少从视觉中心视角来处理该问题。在这项工作中,我们将ARC问题形式化为视觉范式,将其表述为图像到图像翻译问题。为了融入视觉先验知识,我们将输入表示在一个“画布”上,该“画布”可以像自然图像一样进行处理。因此,我们很自然地应用标准视觉架构,例如朴素Vision Transformer (ViT),来执行图像到图像映射。我们的模型仅使用ARC数据从零开始训练,并通过测试时训练泛化到未见任务。我们的框架,称为Vision ARC (VARC),在ARC-1基准上达到了60.4%的准确率,大幅优于其他同样从零开始训练的现有方法。我们的结果与领先的LLM具有竞争力,并缩小了与人类平均表现的差距。 |
| 2025-11-18 | UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning | null | 我们提出UniGen-1.5,一个统一的多模态大语言模型(MLLM),用于高级图像理解、生成和编辑。在UniGen的基础上,我们全面增强了模型架构和训练流程,以加强图像理解和生成能力,同时解锁强大的图像编辑能力。特别地,我们提出了一种统一的强化学习(RL)策略,通过共享奖励模型共同改进图像生成和图像编辑。为了进一步提高图像编辑性能,我们提出了一种轻量级的编辑指令对齐阶段,该阶段显著提高了编辑指令的理解能力,这对于RL训练的成功至关重要。实验结果表明,UniGen-1.5展现出具有竞争力的理解和生成性能。具体而言,UniGen-1.5在GenEval和ImgEdit上分别取得了0.89和4.31的综合分数,超越了BAGEL等最先进模型,并达到了与GPT-Image-1等专有模型相当的性能。 |
| 2025-11-18 | $π^{*}_{0.6}$: a VLA That Learns From Experience | null | 我们研究视觉-语言-动作 (VLA) 模型如何通过强化学习 (RL) 在真实世界部署中得到提升。我们提出了一种通用方法,即基于优势条件策略的经验与修正强化学习 (RECAP),它通过优势条件化实现VLA的强化学习训练。我们的方法将异构数据整合到自我提升过程中,包括演示数据、在策略收集数据以及在自主执行期间提供的专家远程操作干预。RECAP首先使用离线RL预训练一个通用VLA模型,我们称之为 $π^{}_{0.6}$,该模型随后可以通过机器人的数据收集进行专门化,以在下游任务中获得高性能。我们展示了使用完整RECAP方法训练的 $π^{}_{0.6}$ 模型能够在真实家庭中叠洗衣服、可靠地组装盒子,以及使用专业意式咖啡机制作意式咖啡饮品。在一些最困难的任务上,RECAP使任务吞吐量增加一倍以上,任务失败率大约减半。 |
| 2025-11-18 | Vision Large Language Models Are Good Noise Handlers in Engagement Analysis | null | 与传统的图像分类任务不同,视频数据集中的参与度识别尤其受到主观标签和噪声的挑战,这些因素限制了模型性能。为了克服主观和噪声参与度标签带来的挑战,我们提出了一个利用视觉大语言模型(VLM)来精炼标注并指导训练过程的框架。我们的框架使用问卷提取行为线索,并将数据分为高可靠性和低可靠性子集。我们还引入了一种结合课程学习和软标签精炼的训练策略,逐步纳入模糊样本,同时调整监督以反映不确定性。我们证明,在精炼的高可靠性子集上训练并结合我们课程策略增强的经典计算机视觉模型显示出改进,突出了使用VLM解决标签主观性的益处。该方法超越了EngageNet等参与度基准测试中的现有最先进水平(六个特征设置中的三个,最大提升1.21%),并在DREAMS / PAFE上的F1分数分别提高了0.22 / 0.06。 |
| 2025-11-18 | Measuring AI Progress in Drug Discovery: A Reproducible Leaderboard for the Tox21 Challenge | null | 深度学习自2010年代初兴起以来,已彻底改变了计算机视觉和自然语言处理等领域,并对生物医学研究产生了深远影响。具体到药物发现领域,一个关键的转折点(类似于计算机视觉领域的“ImageNet时刻”)于2015年到来,当时深度神经网络在Tox21数据挑战赛中超越了传统方法。这一里程碑加速了深度学习在整个制药行业的采用,如今大多数主要公司已将这些方法整合到其研究管线中。Tox21挑战赛结束后,其数据集被纳入了几个已建立的基准,如MoleculeNet和Open Graph Benchmark。然而,在这些整合过程中,数据集被修改,标签被估算或伪造,导致不同研究之间可比性的丧失。因此,生物活性和毒性预测方法在过去十年中的改进程度仍不明确。为此,我们引入了一个可复现的排行榜,该排行榜托管在Hugging Face上,使用了原始的Tox21挑战赛数据集,并包含一组基线和代表性方法。排行榜的当前版本表明,原始Tox21冠军(基于集成的DeepTox方法)以及2017年引入的基于描述符的自归一化神经网络,持续保持竞争力并位列毒性预测的顶级方法之列,这使得在过去十年中毒性预测是否取得了实质性进展仍不明确。作为这项工作的一部分,我们通过对Hugging Face Spaces进行标准化API调用,使所有基线和评估模型可公开用于推理。 |
| 2025-11-18 | Seeing Beyond the Image: ECG and Anatomical Knowledge-Guided Myocardial Scar Segmentation from Late Gadolinium-Enhanced Images | null | 从钆增强心脏磁共振成像(LGE-MRI)中精确分割心肌瘢痕对于评估组织活力至关重要,但由于对比度不一和成像伪影,这仍然具有挑战性。心电图(ECG)信号提供了补充的生理信息,因为传导异常可以帮助定位或提示瘢痕心肌区域。在这项工作中,我们提出了一种新颖的多模态框架,该框架将ECG衍生的电生理信息与AHA-17图谱中的解剖学先验知识相结合,以实现生理学上一致的基于LGE的瘢痕分割。由于ECG和LGE-MRI并非同时采集,我们引入了一种时间感知特征融合(TAFF)机制,该机制根据采集时间差动态地加权并融合特征。我们的方法在一个临床数据集上进行了评估,并相较于最先进的仅基于图像的基线模型(nnU-Net)取得了显著提升,将瘢痕的平均Dice分数从0.6149提高到0.8463,并在精确率(0.9115)和敏感性(0.9043)方面均达到高水平性能。这些结果表明,整合生理学和解剖学知识使模型能够“超越图像”进行观察,为鲁棒且生理学上可靠的心脏瘢痕分割开辟了新方向。 |
| 2025-11-18 | HyMAD: A Hybrid Multi-Activity Detection Approach for Border Surveillance and Monitoring | null | 地震传感已成为边境监视和监测的一种有前景的解决方案;地震传感器通常埋在地下,体积小,不易被察觉,使入侵者难以检测、避开或破坏。与高度可见的摄像头或围栏相比,这显著增强了它们的有效性。然而,由于地震信号的复杂性和噪声特性,准确检测和区分同时发生的重叠活动(例如人类入侵、动物移动和车辆隆隆声)仍然是一个主要挑战。正确识别同时发生的活动至关重要,因为未能将其分离可能导致错误分类、漏检以及对情况理解不完整,从而降低监控系统的可靠性。为了解决这个问题,我们提出了HyMAD(混合多活动检测),这是一种基于时空特征融合的深度神经网络架构。该框架集成了使用SincNet提取的频谱特征和由循环神经网络(RNN)建模的时间依赖性。此外,HyMAD采用了自注意力层来增强模态内表示,并使用跨模态融合模块来实现地震事件的鲁棒多标签分类。我们在一个由在边境监视和监测背景下收集的真实世界现场记录构建的数据集上评估了我们的方法,证明了其泛化到涉及人类、动物和车辆的复杂、同时活动场景的能力。我们的方法实现了具有竞争力的性能,并为在现实世界安全应用中扩展基于地震的活动识别提供了模块化框架。 |
| 2025-11-18 | Talk, Snap, Complain: Validation-Aware Multimodal Expert Framework for Fine-Grained Customer Grievances | null | 现有投诉分析方法主要依赖于单模态、短形式内容,例如推文或产品评论。本工作通过利用多模态、多轮客户支持对话推进了该领域,用户在对话中通常会分享文本投诉和视觉证据(例如,截图、产品照片),从而实现投诉方面和严重性的细粒度分类。我们引入了VALOR,一个具有专家路由的验证感知学习器,专为此多模态设置量身定制。它采用多专家推理设置,使用大规模生成模型结合思维链(CoT)提示,以实现细致的决策。为确保模态之间的一致性,计算语义对齐分数并通过元融合策略集成到最终分类中。与联合国可持续发展目标(UN SDGs)保持一致,所提出的框架通过推进人工智能驱动的工具,支持健壮、可扩展和上下文感知的服务基础设施,从而支持可持续发展目标9(产业、创新和基础设施)。此外,通过实现投诉叙述和视觉上下文的结构化分析,它促进了响应性更强的产品设计并提高了消费者服务的问责制,从而有助于可持续发展目标12(负责任消费和生产)。我们在一个标注有细粒度方面和严重性标签的精选多模态投诉数据集上评估了VALOR,结果表明它始终优于基线模型,尤其是在信息分布在文本和图像之间的复杂投诉场景中。这项研究强调了多模态交互和专家验证在实际投诉理解系统中的价值。数据和代码相关资源可在此处获取:https://github.com/sarmistha-D/VALOR |
| 2025-11-18 | Hyperbolic Graph Embeddings Reveal the Host-Pathogen Interactome | null | 感染依赖于病原体与宿主蛋白之间的相互作用,但全面绘制这些相互作用图谱具有挑战性且劳动密集。许多生物网络具有分层、无标度结构,因此我们开发了一个深度学习框架ApexPPI,该框架在双曲黎曼空间中表示蛋白质网络以捕捉这些特征。我们的模型整合了多模态生物数据(蛋白质序列、基因扰动实验和互补相互作用网络),通过多任务双曲图神经网络来预测病原体和宿主蛋白之间可能存在的相互作用。将蛋白质特征映射到双曲空间,在预测宿主-病原体相互作用方面,相比于以前的方法获得了更高的准确性。从数千万种可能的蛋白质对中,我们的模型识别出数千个高置信度相互作用,其中许多涉及人类G蛋白偶联受体(GPCRs)。我们使用AlphaFold 3结构建模验证了数十个这些预测的复合物,支持了我们预测的准确性。这张宿主-病原体蛋白质相互作用的综合图谱为发现新疗法提供了资源,并阐明了先进人工智能如何能够揭示复杂的生物系统。 |
| 2025-11-18 | M-CALLM: Multi-level Context Aware LLM Framework for Group Interaction Prediction | null | 本文探讨了大型语言模型如何利用多级上下文信息预测协作式混合现实环境中的群体协作模式。我们证明,将个体行为档案、群体结构属性和时间动态编码为自然语言,能够使大型语言模型突破统计模型的性能上限。我们构建了M-CALLM框架,该框架将多模态传感器流转换为分层上下文,用于基于大型语言模型的预测,并在干预模式(实时预测)和模拟模式(自回归预测)下,针对统计基线模型评估了三种范式(零样本提示、少样本学习和有监督微调)。对16个群体(64名参与者,约25小时)的直接比较表明,上下文感知的大型语言模型在对话预测方面实现了96%的准确率,比LSTM基线模型提高了3.2倍,同时保持低于35毫秒的延迟。然而,模拟模式显示出脆弱性,由于级联错误导致性能下降83%。对模态特定性能的深入分析表明,对话依赖于时间模式,接近度受益于群体结构(提高了6%),而共享注意力则完全失败(召回率为0%),暴露出架构限制。我们希望这项工作能催生新想法,用于构建能够平衡语义推理能力与基本约束的智能协作感知系统。 |
| 2025-11-14 | DocLens : A Tool-Augmented Multi-Agent Framework for Long Visual Document Understanding | null | 理解长篇视觉文档,即信息分布在大量的文本页和视觉元素中的文档,是现代视觉-语言模型 (VLMs) 一项关键但具有挑战性的任务。现有方法在一个基本挑战上表现不佳:证据定位。它们难以检索相关页面并忽略视觉元素中的细粒度细节,导致性能受限和模型幻觉。为解决此问题,我们提出 DocLens,一个工具增强型多智能体框架,能够像镜头一样有效“聚焦”于证据。它首先从整个文档导航到相关页面上的特定视觉元素,然后采用采样-裁决机制生成一个单一、可靠的答案。结合 Gemini-2.5-Pro,DocLens 在 MMLongBench-Doc 和 FinRAGBench-V 上取得了最先进的性能,甚至超越了人类专家。该框架的优越性在以视觉为中心和无法回答的查询上尤为明显,证明了其增强定位能力的强大。 |
| 2025-11-14 | Bridging Hidden States in Vision-Language Models | null | 视觉-语言模型 (VLM) 是一类新型模型,旨在将图像内容与自然语言对齐。现有方法通常通过以下两种方式进行融合:(a) 早期融合:在编码器内部混合tokens/特征;或 (b) 晚期融合:通过比较池化后的嵌入。许多方法还将融合与自回归解码器绑定。然而,两种模态的隐藏状态已携带丰富的模态特定结构(视觉中的空间布局;文本中的句法和语义),因此直接对齐这些状态是一种自然的方式来匹配两种模态所表征的内容。我们提出了一种轻量级融合模块:在两个编码器顶部附近放置几个仅进行跨模态的双向注意力层。每个层将视觉和文本编码器隐藏状态序列投影到共享空间,进行跨模态注意力,并发送门控残差更新,辅以简单的稳定器以改善对齐。编码器保持非因果性并具有强大的理解能力,而生成则通过可选解码器保持干净地解耦。在标准检索、VQA(视觉问答)和视觉推理基准测试中,BRIDGE的性能优于同类VLM,同时保留了对比模型双编码器的效率。我们已将代码公开在https://github.com/jfeinashley/BRIDGE。 |
| 2025-11-14 | Collaborative Representation Learning for Alignment of Tactile, Language, and Vision Modalities | null | 触觉感知为视觉和语言提供了丰富且互补的信息,使机器人能够感知细粒度的物体属性。然而,现有触觉传感器缺乏标准化,导致冗余特征阻碍了跨传感器泛化。此外,现有方法未能充分整合触觉、语言和视觉模态之间的中间通信。为此,我们提出了TLV-CoRe,一种基于CLIP的触觉-语言-视觉协作表示学习方法。TLV-CoRe引入了传感器感知调制器来统一不同传感器之间的触觉特征,并采用触觉无关解耦学习来解耦不相关的触觉特征。此外,还引入了统一桥接适配器,以增强共享表示空间内的三模态交互。为了公平评估触觉模型的有效性,我们进一步提出了RSS评估框架,关注不同方法之间的鲁棒性、协同性和稳定性。实验结果表明,TLV-CoRe显著提高了传感器无关表示学习和跨模态对齐能力,为多模态触觉表示提供了新方向。 |
| 2025-11-14 | SynthSoM-Twin: A Multi-Modal Sensing-Communication Digital-Twin Dataset for Sim2Real Transfer via Synesthesia of Machines | null | 本文构建了一个新颖的多模态感知-通信数字孪生数据集,命名为SynthSoM-Twin,该数据集与真实世界在时空上保持一致,用于通过机器联觉(SoM)实现Sim2Real(从仿真到真实)迁移。为了构建SynthSoM-Twin数据集,我们提出了一种新颖的框架,该框架能够扩展现有真实世界多模态感知-通信数据集的数量并补齐缺失模态。具体来说,我们利用多模态感知辅助的目标检测和跟踪算法,以确保真实世界和仿真环境中静态物体和动态物体的时空一致性。构建的场景被导入到三个高保真模拟器中,即AirSim、WaveFarer和Sionna RT。SynthSoM-Twin数据集包含与真实世界时空一致的数据,包括66,868个合成RGB图像快照、深度图、光探测和测距(LiDAR)点云、毫米波(mmWave)雷达点云以及大尺度和小尺度信道衰落数据。为了验证SynthSoM-Twin数据集的实用性,我们通过借助跨模态生成模型(CMGM)实现两个跨模态下游任务,即跨模态信道生成模型和多模态感知辅助波束生成模型,进行了Sim2Real迁移研究。基于这些下游任务,我们探索了真实世界数据注入的阈值,该阈值能够在真实世界数据使用量和模型的实际性能之间实现良好的权衡。实验结果表明,在SynthSoM-Twin数据集上训练的模型取得了良好的实际性能,并且真实世界数据的注入进一步促进了Sim2Real迁移能力。基于SynthSoM-Twin数据集,注入不到15%的真实世界数据,与仅使用所有真实世界数据进行训练相比,可以达到相似甚至更好的性能。 |
| 2025-11-14 | PAS : Prelim Attention Score for Detecting Object Hallucinations in Large Vision--Language Models | null | 大规模视觉-语言模型(LVLM)功能强大,但由于物体幻觉,其可靠性仍有不足。在这项工作中,我们发现,在许多幻觉预测中,LVLM有效地忽略了图像,而是依赖于先前生成的输出(prelim)token来推断新物体。我们通过图像与预测物体之间以prelim为条件的互信息来量化这种行为,结果表明弱图像依赖性与幻觉强烈相关。基于这一发现,我们引入了Prelim注意力分数(PAS),这是一种轻量级、无需训练的信号,通过预生成token上的注意力权重计算得出。PAS不需要额外的正向传播,并且可以在推理过程中即时计算。利用这一先前被忽视的信号,PAS在多个模型和数据集上实现了最先进的物体幻觉检测,从而实现了实时过滤和干预。 |
| 2025-11-14 | Multimodal Posterior Sampling-based Uncertainty in PD-L1 Segmentation from H&E Images | null | PD-L1表达的准确评估对于指导免疫疗法至关重要,然而当前基于免疫组织化学(IHC)的方法是资源密集型的。我们提出了nnUNet-B:一个贝叶斯分割框架,它利用多模态后验采样(MPS)直接从H&E染色组织病理图像中推断PD-L1表达。我们的方法以nnUNet-v2为基础,在循环训练期间采样多样化的模型检查点以近似后验,通过熵和标准差实现准确分割和认知不确定性估计。在肺鳞状细胞癌数据集上进行评估,我们的方法相对于已有基线取得了具有竞争力的性能,平均Dice系数和平均IoU分别为0.805和0.709,同时提供了像素级不确定性图。不确定性估计与分割误差显示出强相关性,尽管校准仍不完善。这些结果表明,考虑不确定性的基于H&E的PD-L1预测是迈向临床工作流程中可扩展、可解释的生物标志物评估的有前景的一步。 |
| 2025-11-14 | ImAgent: A Unified Multimodal Agent Framework for Test-Time Scalable Image Generation | null | 近期的文生图(T2I)模型在生成视觉真实且语义连贯的图像方面取得了显著进展。然而,它们仍然存在与给定提示词的随机性和不一致性问题,尤其当文本描述模糊或不明确时。现有方法,例如提示词重写、N选一采样和自优化,能够缓解这些问题,但通常需要额外的模块并独立运行,这阻碍了测试时扩展效率并增加了计算开销。在本文中,我们引入了ImAgent,一个无需训练的统一多模态智能体,它将推理、生成和自评估集成到单一框架中,以实现高效的测试时扩展。在策略控制器引导下,多个生成动作动态交互并自组织,以提高图像保真度和语义对齐,而无需依赖外部模型。在图像生成和编辑任务上的大量实验表明,ImAgent始终优于骨干模型,甚至在骨干模型失效的情况下超越了其他强大的基线,这突显了统一多模态智能体在测试时扩展下实现自适应和高效图像生成方面的潜力。 |
| 2025-11-14 | Rethinking Progression of Memory State in Robotic Manipulation: An Object-Centric Perspective | null | 随着具身智能体在日益复杂的环境中运行,感知、跟踪并推理单个对象实例随时间变化的能力变得至关重要,尤其是在需要与视觉上相似的对象进行序列化交互的任务中。在这些非马尔可夫设置中,关键决策线索通常隐藏在对象特定的历史记录中,而非当前场景。如果没有对先前交互(交互过什么、它在哪里、或它如何变化)的持久记忆,视觉运动策略可能会失败、重复过去的动作或忽略已完成的动作。为了凸显这一挑战,我们引入了LIBERO-Mem,这是一个用于在对象级部分可观察性下对机器人操作进行压力测试的非马尔可夫任务套件。它结合了短期和长期对象跟踪以及时间序列子目标,需要超越当前帧进行推理。然而,视觉-语言-动作(VLA)模型在此类设置中常常表现不佳,令牌扩展即使对于仅跨越几百帧的任务也会迅速变得难以处理。我们提出了Embodied-SlotSSM,一个专为时间可扩展性构建的以槽为中心的VLA框架。它保持时空一致的槽位标识,并通过两种机制利用它们:(1) 槽位状态空间建模以重建短期历史,以及 (2) 一个关系编码器,用于将输入令牌与动作解码对齐。这些组件共同实现了基于时间的、上下文感知的动作预测。实验表明Embodied-SlotSSM在LIBERO-Mem和通用任务上的基线性能,为以对象为中心的机器人策略中的非马尔可夫推理提供了一个可扩展的解决方案。 |
| 2025-11-14 | Sat2RealCity: Geometry-Aware and Appearance-Controllable 3D Urban Generation from Satellite Imagery | null | 生成建模的最新进展大幅提升了三维城市生成能力,使其能够应用于数字孪生、虚拟城市和大规模模拟等领域。然而,现有方法面临两个主要挑战:(1) 监督训练所需的大规模三维城市资产获取困难且成本高昂;(2) 依赖于语义图或高度图,这些图仅用于在虚拟世界中生成建筑物,缺乏与真实世界外观的联系,从而限制了生成城市的真实感和泛化能力。为解决这些局限性,我们提出了Sat2RealCity,一个从真实世界卫星图像生成三维城市的几何感知和外观可控框架。与以往的城市级生成方法不同,Sat2RealCity基于单个建筑实体进行生成,使得能够利用三维物体生成领域丰富的先验知识和预训练知识,同时大幅减少对大规模三维城市资产的依赖。具体而言,(1) 我们引入了基于OSM的空间先验策略,以实现从空间拓扑到建筑实例的可解释几何生成;(2) 我们设计了一种外观引导的可控建模机制,用于实现细粒度的外观真实感和风格控制;(3) 我们构建了一个由MLLM驱动的语义引导生成管道,弥合了语义解释与几何重建之间的鸿沟。大量定量和定性实验表明,Sat2RealCity在结构一致性和外观真实感方面显著超越了现有基线,为与真实世界对齐的三维城市内容创建奠定了坚实基础。代码即将发布。 |
| 2025-11-14 | Rethinking Efficient Mixture-of-Experts for Remote Sensing Modality-Missing Classification | null | 遥感中的多模态分类常受环境干扰、传感器故障或大气效应引起的模态缺失困扰,这严重降低了分类性能。现有的两阶段自适应方法计算开销大,且假设训练期间数据模态完整,限制了它们在真实世界不完整数据上的泛化能力。为了解决这些问题,我们提出了一种缺失感知型LoRa混合(MaMOL)框架,将模态缺失重构为多任务学习问题。MaMOL引入了一种双路由机制:一个任务导向的动态路由器,自适应地激活针对不同缺失模式的专家;以及一个模态特异性共享的静态路由器,维持稳定的跨模态知识共享。与以往为每种缺失配置训练独立网络的方法不同,MaMOL通过轻量级专家更新和共享专家复用实现了参数高效的自适应。在多个遥感基准数据集上的实验证明,MaMOL在不同缺失率下展现出卓越的鲁棒性和泛化能力,且计算开销极小。此外,在自然图像数据集上的迁移实验验证了其可扩展性和跨领域适用性,突显MaMOL是解决不完整多模态学习问题的通用且高效的解决方案。 |
| 2025-11-07 | Visual Spatial Tuning | link | 从视觉输入中捕捉空间关系是类人通用智能的基石。之前的几项研究试图通过添加额外的专家编码器来增强视觉-语言模型(VLMs)的空间感知能力,但这带来了额外的开销,并且通常会损害通用能力。为了增强通用架构中的空间能力,我们引入了视觉空间调优(VST),这是一个全面的框架,旨在培养VLMs具备从空间感知到空间推理的类人视觉空间能力。我们首先尝试通过构建一个名为VST-P的大规模数据集来增强VLMs的空间感知能力,该数据集包含410万个样本,涵盖了单视图、多图像和视频中的19种技能。随后,我们提出了VST-R,这是一个包含13.5万个样本的精心策划的数据集,用于指导模型进行空间推理。特别地,我们采用了一种渐进式训练流程:首先通过监督微调建立基础空间知识,然后通过强化学习进一步提高空间推理能力。在不影响通用能力的情况下,所提出的VST在多个空间基准测试中持续取得最先进的成果,包括MMSI-Bench上的34.8%和VSIBench上的61.2%。结果表明,采用所提出的空间调优范式,视觉-语言-动作模型可以得到显著增强,为更具物理基础的AI铺平了道路。 |
| 2025-11-07 | Multi-modal Loop Closure Detection with Foundation Models in Severely Unstructured Environments | null | 鲁棒的闭环检测是GNSS受限环境(例如行星探索场景)中同步定位与建图(SLAM)算法的关键组成部分。在这些环境下,视觉地点识别常因混叠和弱纹理而失效,而基于激光雷达的方法则存在稀疏性和模糊性问题。本文提出了MPRF,一个多模态流程,它利用基于Transformer的视觉和激光雷达模态基础模型,在严重非结构化环境中实现鲁棒的闭环。与之前仅限于检索的工作不同,MPRF整合了两阶段视觉检索策略和显式的6自由度位姿估计,结合DINOv2特征与SALAD聚合进行高效的候选筛选,并使用基于SONATA的激光雷达描述符进行几何验证。在S3LI数据集和S3LI Vulcano数据集上的实验表明,MPRF在精度方面优于最先进的检索方法,同时增强了低纹理区域的位姿估计鲁棒性。通过提供适用于SLAM后端的、可解释的对应关系,MPRF在准确性、效率和可靠性之间取得了有利的权衡,展示了基础模型统一地点识别和位姿估计的潜力。代码和模型将发布在github.com/DLR-RM/MPRF。 |
| 2025-11-07 | PreResQ-R1: Towards Fine-Grained Rank-and-Score Reinforcement Learning for Visual Quality Assessment via Preference-Response Disentangled Policy Optimization | null | 视觉质量评估(QA)旨在预测人类对视觉保真度的感知判断。尽管最近的多模态大型语言模型(MLLMs)在图像和视频质量推理方面展现出潜力,但现有方法主要依赖于监督微调或仅基于排序的目标,导致推理肤浅、分数校准差以及跨域泛化能力有限。我们提出了PreResQ-R1,一个偏好-响应解耦强化学习框架,它在单一的推理驱动优化方案中统一了绝对分数回归和相对排序一致性。与先前的QA方法不同,PreResQ-R1引入了一种双分支奖励公式,分别建模样本内响应一致性和样本间偏好对齐,并通过组相对策略优化(GRPO)进行优化。这种设计鼓励对感知质量进行细粒度、稳定且可解释的思维链推理。为了扩展到静态图像之外,我们进一步为视频质量评估设计了一种全局时间与局部空间数据流策略。值得注意的是,仅通过对6K图像和28K视频进行强化微调,PreResQ-R1在10个IQA和5个VQA基准上,在SRCC和PLCC指标下均取得了最先进的结果,在IQA任务中分别超越了5.30%和2.15%。除了定量增益之外,它还生成了与人类对齐的推理轨迹,揭示了质量判断背后的感知线索。代码和模型均已提供。 |
| 2025-11-07 | A multimodal multiplex of the mental lexicon for multilingual individuals | null | 历史上,双语现象常被视为一种额外的认知负荷,可能阻碍语言和智力发展。然而,在过去的三十年间,这一观点已发生显著变化。大量研究旨在建模和理解双语词汇识别系统的架构 (Dijkstra 和 van Heuven, 2002),探究并行激活在大脑中如何运作以及一种语言如何影响另一种语言 (Kroll 等, 2015)。越来越多的证据表明,多语者(即会说三种或更多语言的个体)在各种语言和认知任务中,例如学习一门额外的语言 (Abu-Rabia 和 Sanitsky, 2010),表现优于单语者。本研究提案侧重于心理词典的研究及其在多语者中的可能结构。基于 Stella 等人 (2018) 使用心理词典多重模型研究人类爆发式学习的工作,以及 Dijkstra 和 van Heuven (2002) 提出的双语交互激活 (BIA+) 框架,本研究应用了 Kivela 等人 (2014) 引入的相同多层网络原理。我们的实验设计通过将多模态整合到多重模型中来扩展先前的研究,引入一个额外的层,该层将视觉输入连接到心理词典的多语层中对应的词汇表征。在本研究中,我们旨在探究传承语如何影响另一种语言的习得。具体而言,我们提出问题:在翻译任务中,与纯文本条件相比,视觉输入的存在是否会影响参与者的熟练度和准确性? |
| 2025-11-07 | Turning Adversaries into Allies: Reversing Typographic Attacks for Multimodal E-Commerce Product Retrieval | null | 电商平台中的多模态商品检索系统依赖于有效结合视觉和文本信号来提高搜索相关性和用户体验。然而,CLIP等视觉-语言模型易受排版攻击,即图像中嵌入的误导性或不相关文本会扭曲模型预测。在这项工作中,我们提出了一种新方法,通过将相关文本内容(例如,标题、描述)直接渲染到商品图片上以执行视觉-文本压缩,从而逆转排版攻击的逻辑,增强图像-文本对齐并提升多模态商品检索性能。我们使用六个最先进的视觉基础模型,在三个垂直领域的电商数据集(运动鞋、手袋和交易卡)上评估了我们的方法。我们的实验表明,在不同类别和模型家族中,单模态和多模态检索精度均持续得到改进。我们的发现表明,视觉化渲染商品元数据是电商应用中零样本多模态检索的一种简单而有效的增强方法。 |
| 2025-11-07 | psiUnity: A Platform for Multimodal Data-Driven XR | null | 扩展现实 (XR) 研究越来越依赖于在头戴式设备和沉浸式应用之间流式传输和同步多模态数据,以实现数据驱动的交互和实验。然而,开发者面临一个关键的空白:擅长确定性时间对齐和多模态数据管理的情境智能平台 (psi),在用于 HoloLens 开发的主流 Unity/MRTK 生态系统中,大部分时间都无法访问。我们引入 psiUnity,这是一个开源 C# 集成,它将 psi 的 .NET 库与 Unity 2022.3 和 MRTK3 连接起来,用于 HoloLens 2。psiUnity 实现了头部姿态、手部追踪、凝视、惯性测量单元 (IMU)、音频以及深度传感器数据(AHAT 和长程)的双向实时流式传输,具有微秒级时间精度,从而允许 Unity 应用程序既可以消费又可以生成同步的多模态数据流。通过将 psi 的原生序列化、日志记录和时间协调直接嵌入到 Unity 的架构中,psiUnity 将 psi 的应用范围扩展到其之前的 StereoKit 限制之外,并赋能人机交互 (HRI)、人机界面 (HCI) 和具身人工智能 (embodied-AI) 社区在熟悉的 Unity 环境中开发可复现的、数据驱动的 XR 交互和实验。该集成可在 https://github.com/sailgt/psiUnity 获取。 |
| 2025-11-07 | Cross-domain EEG-based Emotion Recognition with Contrastive Learning | null | 基于脑电图 (EEG) 的情绪识别对情感计算至关重要,但在特征利用和跨域泛化方面面临挑战。本工作引入了EmotionCLIP,它在CLIP框架内将情绪识别重新定义为一种脑电图-文本匹配任务。一个定制的骨干网络SST-LegoViT使用多尺度卷积和Transformer模块捕获空间、频谱和时间特征。在SEED和SEED-IV数据集上的实验显示,其跨被试准确率分别为88.69%和73.50%,跨时间准确率分别为88.46%和77.54%,优于现有模型。结果表明多模态对比学习对于鲁棒的脑电图情绪识别的有效性。 |
| 2025-11-07 | DeepEyesV2: Toward Agentic Multimodal Model | null | 智能体多模态模型不仅应理解文本和图像,还应主动调用外部工具,如代码执行环境和网络搜索,并将这些操作整合到推理中。在这项工作中,我们引入了DeepEyesV2,并从数据构建、训练方法和模型评估的角度探索如何构建一个智能体多模态模型。我们观察到,仅凭直接强化学习无法诱导鲁棒的工具使用行为。这种现象促使我们采用两阶段训练流程:一个冷启动阶段以建立工具使用模式,以及一个强化学习阶段以进一步优化工具调用。我们整理了一个多样化、中等难度的训练数据集,特别包括工具使用有益的示例。我们进一步引入了RealX-Bench,一个旨在评估真实世界多模态推理的全面基准,这本身就需要整合多种能力,包括感知、搜索和推理。我们在RealX-Bench和其他有代表性的基准上评估了DeepEyesV2,展示了其在真实世界理解、数学推理和搜索密集型任务中的有效性。此外,DeepEyesV2表现出任务自适应的工具调用,倾向于将图像操作用于感知任务,将数值计算用于推理任务。强化学习进一步实现了复杂的工具组合,并允许模型根据上下文选择性地调用工具。我们希望我们的研究能为社区在开发智能体多模态模型方面提供指导。 |
| 2025-11-07 | Multimodal Deep Learning for Prediction of Progression-Free Survival in Patients with Neuroendocrine Tumors Undergoing 177Lu-based Peptide Receptor Radionuclide Therapy | null | 肽受体放射性核素治疗 (PRRT) 是转移性神经内分泌肿瘤 (NETs) 的一种成熟治疗方法,但仅在部分患者中实现长期疾病控制。预测无进展生存期 (PFS) 有助于支持个性化治疗方案。本研究评估了实验室、影像学和多模态深度学习模型在PRRT治疗患者中预测PFS的能力。在这项回顾性单中心研究中,纳入了116名接受177Lu-DOTATOC治疗的转移性NETs患者。收集了临床特征、实验室指标和治疗前生长抑素受体正电子发射断层扫描/计算机断层扫描 (SR-PET/CT) 数据。共训练了七个模型来区分低PFS组和高PFS组,包括单模态(实验室、SR-PET或CT)和多模态融合方法。通过特征重要性分析和梯度图评估了模型的可解释性。四十二名患者(36%)的PFS较短(<1年),七十四名患者的PFS较长(>1年)。除了短PFS患者的基线嗜铬粒蛋白A较高 (p = 0.003)、γ-GT升高 (p = 0.002) 和PRRT周期数较少 (p < 0.001) 外,两组在大多数特征上相似。仅基于实验室生物标志物训练的随机森林模型达到了0.59 ± 0.02的AUROC。使用SR-PET或CT的单模态三维卷积神经网络表现较差(AUROC分别为0.42 ± 0.03和0.54 ± 0.01)。结合实验室指标、SR-PET和CT并辅以预训练CT分支的多模态融合模型取得了最佳结果(AUROC 0.72 ± 0.01,AUPRC 0.80 ± 0.01)。结合SR-PET、CT和实验室生物标志物的多模态深度学习在PRRT后PFS预测方面优于单模态方法。经过外部验证后,此类模型可支持风险适应的随访策略。 |
| 2025-11-07 | Early Alzheimer's Disease Detection from Retinal OCT Images: A UK Biobank Study | null | 使用光学相干断层扫描(OCT)可测量的视网膜层厚度改变与阿尔茨海默病(AD)等神经退行性疾病相关。既往研究主要关注分割层厚度测量,而本研究则探索了OCT B扫描图像的直接分类,用于阿尔茨海默病的早期检测。据我们所知,这是文献中首次将深度学习应用于原始OCT B扫描以进行阿尔茨海默病预测。与传统医学图像分类任务不同,早期检测比诊断更具挑战性,因为影像学检查早于临床诊断数年。我们使用来自英国生物样本库队列中匹配了年龄、性别和影像学实例的受试者层面交叉验证数据集,对多个预训练模型(包括基于ImageNet的网络和OCT专用RETFound Transformer)进行了微调和评估。为减少这一小型高维度数据集中的过拟合,我们采用了标准和OCT专用数据增强技术,并结合使用了一种年份加权损失函数,该函数优先考虑影像学检查后四年内诊断的病例。ResNet-34产生了最稳定的结果,在4年队列中实现了0.62的AUC。尽管低于临床应用阈值,但我们的可解释性分析证实了阿尔茨海默病组和对照组之间黄斑中心区存在局部结构差异。这些发现为基于OCT的阿尔茨海默病预测提供了基线,强调了在阿尔茨海默病诊断前数年检测细微视网膜生物标志物的挑战,并指出需要更大的数据集和多模态方法。 |
| 2025-11-06 | Cambrian-S: Towards Spatial Supersensing in Video | link | 我们认为,真正的多模态智能的进步需要从反应式、任务驱动型系统和暴力长上下文转向更广泛的超感知范式。我们将空间超感知定义为超越仅基于语言理解的四个阶段:语义感知(命名所见之物),流式事件认知(在连续经验中保持记忆),隐式三维空间认知(推断像素背后的世界),以及预测性世界建模(创建内部模型以过滤和组织信息)。当前基准测试主要只测试早期阶段,对空间认知的覆盖范围狭窄,并且很少以需要真正世界建模的方式挑战模型。为了推动空间超感知的进步,我们提出了VSI-SUPER,一个包含两部分的基准测试:VSR(长时程视觉空间回忆)和VSC(连续视觉空间计数)。这些任务需要任意长度的视频输入,但又能抵抗暴力上下文扩展。我们通过整理VSI-590K并训练Cambrian-S来测试数据扩展限制,在VSI-Bench上实现了30%的绝对提升,同时不牺牲通用能力。然而,VSI-SUPER上的性能仍然有限,这表明仅凭规模不足以实现空间超感知。我们提出预测感知作为前进方向,并展示了一个概念验证,其中一个自监督下一潜在帧预测器利用惊喜(预测误差)来驱动记忆和事件分割。在VSI-SUPER上,这种方法大幅超越了领先的专有基线,表明空间超感知需要模型不仅能看,还能预测、选择和组织经验。 |
| 2025-11-06 | SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding | null | 尽管多模态语言模型在高级视频理解方面表现出色,但在跨时间和空间的空间推理方面仍面临挑战。当前的空间训练方法依赖于真实世界视频数据,但获取具有精确空间标注的多样化视频素材仍然是一个瓶颈。为了缓解这一瓶颈,我们提出了SIMS-V——一个系统的数据生成框架,它利用3D模拟器的特权信息为多模态语言模型创建空间丰富的视频训练数据。利用这一框架,我们通过对问题类型、组合和规模的系统消融实验,研究了模拟数据的哪些特性能够有效促进真实世界迁移。我们确定了三个最小问题类别(度量测量、依赖视角的推理和时间跟踪),这些类别被证明对发展可迁移的空间智能最有效,尽管使用了较少的问题类型,但其性能优于全面覆盖的方法。这些发现使得高效训练成为可能:我们的70亿参数视频LLM仅用2.5万个模拟示例进行微调,其性能优于更大的720亿参数基线模型,并在严格的真实世界空间推理基准测试中与专有模型具有竞争力。我们的方法展示了强大的泛化能力,在通用视频理解方面保持了性能,同时在具身和真实世界空间任务上显示出显著改进。 |
| 2025-11-06 | SAFe-Copilot: Unified Shared Autonomy Framework | null | 自动驾驶系统在罕见、模糊和分布外场景中仍然表现出脆弱性,而人类驾驶员通过情境推理能够成功应对。共享自主已成为一种有前景的方法,通过在自主系统不确定时融入人类输入来减轻此类故障。然而,大多数现有方法将仲裁限制在低级轨迹,这些轨迹仅代表几何路径,因此未能保留潜在的驾驶意图。我们提出了一个统一的共享自主框架,它在更高抽象层次上整合了人类输入和自主规划器。我们的方法利用视觉语言模型(VLM)从多模态线索——例如驾驶员行为和环境上下文——中推断驾驶员意图,并综合出连贯的策略,以协调人类和自主控制。我们首先在一个模拟人类环境中研究了该框架,它实现了完美的召回率以及高准确率和高精确率。一项人类主体调查进一步显示了高度一致性,92%的参与者同意仲裁结果。最后,在Bench2Drive基准上的评估表明,与纯自主系统相比,碰撞率大幅降低,整体性能得到提升。在语义、基于语言的表示层面的仲裁成为共享自主的一个设计原则,使系统能够进行常识推理并与人类意图保持连续性。 |
| 2025-11-06 | Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts | null | 鲁棒性基准对于评估多模态大型语言模型(MLLM)至关重要。然而我们发现,模型无需强大的视觉理解能力,便可在许多多模态基准测试中取得优异成绩,而是利用偏差、语言先验知识和肤浅的模式。这对于旨在需要视觉输入的以视觉为中心的基准测试尤为成问题。我们采纳了一个用于基准设计的诊断原则:如果一个基准可以被钻空子,它就一定会被钻空子。因此,设计者应首先尝试“钻自己基准的空子”,使用诊断和去偏程序来系统地识别并缓解非视觉偏差。有效的诊断需要直接“在测试集上训练”——探测已发布的测试集以发现其内在的、可利用的模式。我们通过两个组成部分将这一标准付诸实践。首先,我们使用“测试集压力测试”(TsT)方法诊断基准的敏感性。我们的主要诊断工具涉及通过k折交叉验证,专门针对测试集中非视觉的文本输入对一个强大的大型语言模型进行微调,以揭示捷径性能并为每个样本分配一个偏差分数 |
| 2025-11-06 | PixCLIP: Achieving Fine-grained Visual Language Understanding via Any-granularity Pixel-Text Alignment Learning | null | 尽管对比语言-图像预训练(CLIP)模型在各种下游视觉语言理解任务中取得了显著成功,但增强其细粒度图像-文本对齐能力仍然是一个活跃的研究热点。为此,大多数现有工作采用显式提高视觉信息处理粒度的策略,例如,通过引入视觉提示来引导模型关注图像中的特定局部区域。同时,多模态大语言模型(MLLMs)的研究表明,使用冗长而详细的文本描述进行训练可以有效提升模型的细粒度视觉-语言对齐能力。然而,CLIP文本编码器固有的token长度限制从根本上限制了CLIP处理长文本序列中嵌入的更细粒度文本信息的能力。为了协同利用提升视觉和文本内容处理粒度的优势,我们提出了PixCLIP,这是一个旨在同时容纳视觉提示输入并处理冗长文本描述的新颖框架。具体而言,我们首先建立了一个自动化标注流程,能够为图像生成像素级局部化的长文本描述。利用此流程,我们构建了LongGRIT,一个包含近150万个样本的高质量数据集。其次,我们用LLM替换了CLIP的原始文本编码器,并提出了一个三分支像素-文本对齐学习框架,以促进图像区域与相应文本描述之间任意粒度的细粒度对齐。实验表明,PixCLIP在像素级交互和处理长文本方面取得了突破,实现了最先进的性能。 |
| 2025-11-06 | Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm | null | “文本思维”和“图像思维”范式显著提升了大语言模型(LLMs)和视觉语言模型(VLMs)的推理能力。然而,这些范式存在固有限制:(1) 图像仅捕获单一时刻,未能表示动态过程或连续变化;(2) 文本与视觉作为独立模态的分离,阻碍了统一的多模态理解和生成。为克服这些限制,我们引入了“视频思维”这一新范式,它利用Sora-2等视频生成模型,在统一的时间框架内弥合视觉和文本推理。为支持这一探索,我们开发了视频思维基准 (VideoThinkBench)。VideoThinkBench包含两类任务:(1) 视觉中心任务(例如,目测谜题),以及 (2) 文本中心任务(例如,GSM8K和MMMU的子集)。我们的评估表明Sora-2是一个有能力的推理器。在视觉中心任务上,Sora-2通常与最先进的(SOTA)视觉语言模型相当,甚至在目测游戏等几项任务上超越了视觉语言模型。在文本中心任务上,Sora-2在MATH上达到了92%的准确率,在MMMU上达到了75.53%的准确率。此外,我们系统分析了这些能力的来源。我们还发现自我一致性和上下文学习可以提高Sora-2的性能。总而言之,我们的发现表明视频生成模型是潜在的统一多模态理解和生成模型,并将“视频思维”定位为一种统一的多模态推理范式。 |
| 2025-11-06 | Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment | link | 视觉-语言-动作 (VLA) 模型已成为一个强大的框架,它统一了感知、语言和控制,使机器人能够通过多模态理解执行多样化任务。然而,当前的VLA模型通常包含海量参数,并严重依赖大规模机器人数据预训练,这导致训练期间计算成本高昂,以及实时推理部署能力有限。此外,大多数训练范式经常会损害视觉-语言骨干网络的感知表示,导致过拟合和对下游任务泛化能力差。在这项工作中,我们提出了Evo-1,一个轻量级VLA模型,它在无需机器人数据预训练的情况下,减少了计算并提高了部署效率,同时保持了强大的性能。Evo-1构建于一个原生多模态视觉-语言模型 (VLM) 之上,结合了新颖的交叉调制扩散Transformer和一个优化的集成模块,共同形成一个有效的架构。我们进一步引入了一种两阶段训练范式,该范式逐步将动作与感知对齐,从而保留了VLM的表示。值得注意的是,Evo-1仅用7.7亿参数就在Meta-World和RoboTwin套件上取得了最先进的结果,分别超越了之前最佳模型12.4%和6.9%,并在LIBERO上获得了94.8%的竞争性结果。在实际世界评估中,Evo-1以高推理频率和低内存开销取得了78%的成功率,优于所有基线方法。我们发布了代码、数据和模型权重,以促进未来在轻量级和高效VLA模型方面的研究。 |
| 2025-11-06 | CardioPHON: Quality assessment and self-supervised pretraining for screening of cardiac function based on phonocardiogram recordings | null | 远程监测心血管疾病在早期发现心脏功能异常方面发挥着至关重要的作用,能够实现及时干预、改善预防性护理和个性化患者治疗。心音异常可通过计算机辅助决策支持系统自动检测,并用作筛查心血管问题或监测治疗和干预效果的一线工具。本文提出了CardioPHON,这是一种集成的心音质量评估和分类工具,可用于从心音图记录中筛查心脏功能异常。该模型以自监督方式在六个中小型心音数据集上进行预训练,能够自动去除低质量记录,以确保心脏异常的细微声音不被误诊,并为心音分类任务提供了最先进的性能。结合音频和社会人口学特征的多模态模型表现出卓越性能,在2022年George B. Moody PhysioNet心音挑战赛的官方排行榜上获得了最佳排名,而仅基于心音图记录的单模态模型在单模态方法中位居第一(总排名第四),超越了利用多模态的模型。CardioPHON是心音记录领域首个公开发布的预训练模型,促进了数据高效的人工智能模型的开发,这些模型能够泛化到心血管诊断中的各种下游任务。 |
| 2025-11-06 | ThaiOCRBench: A Task-Diverse Benchmark for Vision-Language Understanding in Thai | null | 我们提出了ThaiOCRBench,这是第一个用于评估视觉-语言模型(VLM)在泰语文本丰富的视觉理解任务上的综合基准。尽管多模态建模取得了最新进展,但现有基准主要集中于高资源语言,导致泰语代表性不足,尤其是在需要文档结构理解的任务中。ThaiOCRBench通过提供一个多样化的人工标注数据集来解决这一空白,该数据集包含2,808个样本,涵盖13个任务类别。我们在零样本设置下评估了广泛的最先进VLM,涵盖了专有系统和开源系统。结果显示存在显著的性能差距,其中专有模型(例如Gemini 2.5 Pro)优于开源对应模型。值得注意的是,在开源模型中,细粒度文本识别和手写内容提取表现出最显著的性能下降。通过详细的错误分析,我们识别出语言偏差、结构不匹配和幻觉内容等关键挑战。ThaiOCRBench为在低资源、脚本复杂的环境中评估VLM提供了一个标准化框架,并为改进泰语文档理解提供了可操作的见解。 |
| 2025-11-06 | V-Thinker: Interactive Thinking with Images | null | 赋能大型多模态模型 (LMM) 深度融合图像交互与长周期推理能力,在该领域仍是一个长期存在的挑战。近期以视觉为中心的推理研究进展为 LMM 探索了一种有前景的“与图像思考”范式,标志着从图像辅助推理向图像交互式思考的转变。尽管这一里程碑使模型能够关注细粒度图像区域,但进展仍受限于有限的视觉工具空间和任务特定的工作流设计。为弥合这一差距,我们提出了 V-Thinker,一个通用的多模态推理助手,它通过端到端强化学习实现交互式、以视觉为中心的思考。V-Thinker 包含两个关键组件:(1) 一个数据演化飞轮,它从多样性、质量和难度三个维度自动合成、演化和验证交互式推理数据集;(2) 一个视觉渐进式训练课程,它首先通过点级监督对齐感知,然后通过两阶段强化学习框架整合交互式推理。此外,我们引入了 VTBench,一个经过专家验证的、针对以视觉为中心的交互式推理任务的基准。大量实验表明,V-Thinker 在通用和交互式推理场景中始终优于强大的基于 LMM 的基线,为推进图像交互式推理应用提供了宝贵见解。 |
| 2025-11-04 | Agent-Omni: Test-Time Multimodal Reasoning via Model Coordination for Understanding Anything | null | 多模态大语言模型(MLLMs)已展现出强大能力,但仍局限于固定的模态对,并需要使用大规模对齐数据集进行昂贵的微调。构建能够整合文本、图像、音频和视频的完全全能模型仍然不切实际,并且缺乏强大的推理支持。在本文中,我们提出了一个Agent-Omni框架,该框架通过主代理系统协调现有基础模型,从而无需重新训练即可实现灵活的多模态推理。主代理负责解释用户意图,将子任务委托给特定模态的代理,并将它们的输出整合为连贯的响应。在文本、图像、音频、视频和全能基准上的大量实验表明,Agent-Omni始终能达到最先进的性能,尤其是在需要复杂跨模态推理的任务上。其基于代理的设计实现了专用基础模型的无缝集成,确保了对多样化输入的适应性,同时保持了透明度和可解释性。此外,该框架具有模块化且易于扩展的特点,允许未来随着更强大模型的出现进行改进。 |
| 2025-11-04 | When One Modality Sabotages the Others: A Diagnostic Lens on Multimodal Reasoning | null | 尽管多模态大语言模型(MLLMs)发展迅速,但其推理轨迹仍不透明:通常不清楚是哪种模态驱动了预测,冲突如何解决,或者某个信息流何时占据主导。本文引入了模态破坏现象,这是一种诊断性失效模式,其中高置信度单模态错误会覆盖其他证据并误导融合结果。为了分析这种动态,我们提出了一种轻量级、模型无关的评估层,该层将每种模态视为一个智能体,生成候选标签和用于审计的简短自我评估。一个简单的融合机制聚合这些输出,揭示了贡献者(支持正确结果的模态)和破坏者(误导的模态)。将我们的诊断层应用于使用基础模型进行多模态情感识别基准的案例研究中,揭示了系统的可靠性概况,深入了解了故障是源于数据集伪影还是模型局限性。更广泛地说,我们的框架为多模态推理提供了一个诊断框架,支持对融合动态进行原则性审计并为可能的干预措施提供信息。 |
| 2025-11-04 | When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought | link | 我们提出了MIRA,这是一个旨在评估模型在生成中间视觉图像对成功推理至关重要的场景中的新基准。与仅依赖文本的传统思维链(CoT)方法不同,MIRA中的任务要求模型生成并利用草图、结构图或路径图等中间图像来指导其推理过程。这种设置与人类通过“边画边思考”来解决复杂问题的方式非常相似。为此,MIRA侧重于本质上具有挑战性且涉及复杂的结构、空间关系或仅凭语言难以表达的推理步骤的任务。为了确保我们的评估数据具有高质量,我们包含了546个标注了中间视觉图像和最终答案的多模态问题。我们还提出了MIRA的统一评估协议,该协议涵盖了三个级别的评估输入:仅包含图像和问题的直接输入、包含图像和思维提示的纯文本CoT输入,以及包含标注图像线索和文本思维提示的视觉CoT输入。为了探究模型在我们基准上的能力上限,我们还报告了在不同k设置下的pass@k和多数投票准确率。实验结果表明,现有的多模态大型语言模型,包括最强的私有模型和强大的开源模型,在仅依赖文本提示时表现不佳。然而,当提供中间视觉线索时,模型性能持续提高,在所有模型和任务中平均相对增益达到33.7%。我们还通过扩展搜索空间和设计与视觉CoT对齐的文本提示来探究上限,但与我们的视觉CoT设置相比,两者都只带来了有限的改进。这些结果强调了想象的视觉信息在促成MIRA上成功推理中的关键作用。 |
| 2025-11-04 | VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation | link | 在智能体时代,代码已成为进行推理和行动的精确且可执行的媒介。然而,进展主要集中在以语言为中心的任务上,例如程序合成和调试,使得以视觉为中心的编码尚未得到充分探索。受人类如何对草图进行推理的启发,我们提倡将SVG代码作为一种紧凑、可解释且可执行的视觉表示。我们引入了VCode,这是一个将多模态理解重新定义为代码生成的基准:给定一张图像,模型必须生成SVG,以保留符号意义用于后续推理。VCode涵盖三个领域:通用常识 (MM-Vet)、专业学科 (MMMU) 和以视觉为中心的感知 (CV-Bench)。为了评估符号保真度,我们提出了CodeVQA,这是一种新颖的评估协议,其中策略模型对渲染的SVG回答问题;正确答案表明忠实的符号保留。经验上,前沿VLM难以生成忠实的SVG,揭示了以语言为中心和以视觉为中心的编码之间持续存在的差距。为了弥合这一差距,我们引入了VCoder,这是一个沿两个轴增强VLM的智能体框架:(i) 带有修正的思考,它迭代分析差异并完善SVG代码;以及 (ii) 使用视觉工具进行行动,其中检测器和解析器提供超出模型内在能力的对象、形状和文本等结构化线索。在各项基准测试中,具有强大推理能力的前沿VLM总体得分较高,但在专业知识和3D推理方面仍有限。VCoder相较于表现最佳的Claude-4-Opus实现了12.3分的总体提升。人类研究表明,人类和VLM在渲染的SVG上表现更差,而它们的一致性揭示了符号视觉表示的潜力。基准测试和代码可在 https://github.com/CSU-JPG/VCode 获取。 |
| 2025-11-04 | XR-1: Towards Versatile Vision-Language-Action Models via Learning Unified Vision-Motion Representations | null | 大规模机器人数据集和视觉语言模型(VLM)的最新进展推动了视觉-语言-动作(VLA)模型的研究。然而,现有VLA模型仍面临两个基本挑战:(i) 从高维观测中生成精确的低级动作,以及 (ii) 弥合异构数据源(包括不同机器人形态和人类演示)之间的领域鸿沟。现有方法通常从视觉动态或机器人动作中编码潜在变量以指导策略学习,但它们未能充分利用大规模异构数据集中存在的互补多模态知识。在这项工作中,我们提出了X机器人模型1 (XR-1),一个新颖的框架,用于在不同机器人、任务和环境中进行通用且可扩展的VLA学习。XR-1引入了统一视觉-运动编码 (UVMC),这是一种通过双分支VQ-VAE学习的离散潜在表示,它联合编码视觉动态和机器人运动。UVMC通过 (i) 作为观测和动作之间的中间表示,以及 (ii) 对齐来自异构数据源的多模态动态信息以捕获互补知识,从而解决了这些挑战。为了有效利用UVMC,我们提出了一种三阶段训练范式:(i) 自监督UVMC学习,(ii) 在大规模跨形态机器人数据集上进行UVMC引导的预训练,以及 (iii) 任务特定的后训练。我们通过广泛的真实世界实验验证了XR-1,包括在六种不同机器人形态上进行超过14,000次运行,涵盖120多种不同的操作任务。XR-1始终优于最先进的基线方法,例如 |
| 2025-11-04 | Beyond Single Embeddings: Capturing Diverse Targets with Multi-Query Retrieval | null | 大多数文本检索器生成一个查询向量来检索相关文档。然而,查询相关文档的条件分布可能是多模态的,例如代表查询的不同解释。我们首先量化了现有检索器的局限性。我们评估的所有检索器在目标文档嵌入之间的距离增大时表现更差。为了解决这一局限性,我们开发了一种新的检索器架构,即自回归多嵌入检索器 (AMER)。我们的模型自回归地生成多个查询向量,并且所有预测的查询向量都用于从语料库中检索文档。我们表明,在合成向量化数据上,所提出的方法可以完美地捕获多个目标分布,性能比单嵌入模型提高4倍。我们还在实际的多答案检索数据集上微调了我们的模型,并在域内进行了评估。AMER 在我们评估的两个数据集上相较于单嵌入基线模型分别取得了4%和21%的相对增益。此外,我们始终在目标文档嵌入彼此之间相似度较低的数据集子集上观察到更大的增益。我们展示了使用多查询向量检索器的潜力,并为未来的工作开辟了新的方向。 |
| 2025-11-04 | LLEXICORP: End-user Explainability of Convolutional Neural Networks | null | 卷积神经网络(CNNs)是许多现代计算机视觉系统的基础。随着其应用范围从常见领域扩展到关键领域,解释和理解模型及其决策(XAI)的需求应运而生。先前的工作表明,在CNN的顶层中,各个通道可以归因于对人类可理解概念的分类。概念相关性传播(CRP)方法可以将预测回溯到这些通道,并找到最能激活这些通道的图像。然而,当前的CRP工作流程主要是手动的:专家必须检查激活图像来命名发现的概念,并必须从相关性图中综合出冗长的解释,这限制了解释的可访问性和可扩展性。为了解决这些问题,我们引入了大型语言模型解释概念相关性传播(LLEXICORP),这是一个模块化管道,将CRP与多模态大型语言模型结合起来。我们的方法自动为概念原型分配描述性名称,并生成自然语言解释,将定量相关性分布转化为直观的叙述。为了确保忠实性,我们精心设计了提示,通过示例教授语言模型CRP的语义,并强制命名和解释任务之间的分离。生成的文本可以根据不同的受众进行定制,为专家提供低级别的技术描述,并为非技术利益相关者提供高级别的总结。我们使用VGG16模型,对ImageNet中的各种图像定性评估了我们的方法。我们的发现表明,将基于概念的归因方法与大型语言模型相结合,可以显著降低解释深度神经网络的门槛,为更透明的AI系统铺平道路。 |
| 2025-11-04 | Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models | null | 大规模多模态模型 (LMMs) 常常面临严重的推理效率低下问题,这主要是由于图像编码器引入了大量的视觉 token。尽管近期的 token 压缩方法,例如剪枝和合并,在减少冗余方面展现出潜力,但它们的评估仍然分散且不一致。在这项工作中,我们提出了 UniPruneBench,一个统一且可扩展的基准,用于多模态大语言模型 (LLMs) 中的视觉 token 剪枝。UniPruneBench 提供了标准化的协议,涵盖六个能力维度和十个数据集,覆盖十种代表性的压缩算法以及三大家族的 LMMs (LLaVA-v1.5、Intern-VL3 和 Qwen2.5-VL)。除了任务准确性,它还包含了系统级指标,例如运行时间和预填充延迟,以提供一个全面的视角。我们的实验揭示了几个关键发现:(1) 随机剪枝是一个出人意料的强大基线,(2) 没有哪种单一方法能在所有场景中始终优于其他方法,(3) 剪枝敏感性在不同任务中差异显著,其中 OCR 最为脆弱,以及 (4) 剪枝率是影响性能下降的主导因素。我们相信 UniPruneBench 将为未来高效多模态建模的研究奠定可靠基础。 |
| 2025-11-04 | Model Parameter Reconstruction of Electroweak Phase Transition with TianQin and LISA: Insights from the Dimension-Six Model | null | 我们考察了天琴和LISA重构新物理情景拉格朗日量中模型参数的能力,这些情景能够产生强一阶电弱相变。我们以标准模型维度六希格斯算符拓展作为一大类新物理模型的代表性情景,建立了模型参数 |
| 2025-11-04 | UniChange: Unifying Change Detection with Multimodal Large Language Model | null | 变化检测(CD)是监测和分析土地覆盖动态的一项基础任务。尽管近期高性能模型和高质量数据集显著推动了该领域的发展,但一个关键局限性依然存在。当前模型通常从单一类型的标注数据中获取有限知识,并且无法同时利用多样化的二元变化检测(BCD)和语义变化检测(SCD)数据集。这种限制导致了泛化能力差和适用性有限。多模态大语言模型(MLLMs)的最新进展为统一的CD框架带来了新的可能性。我们利用MLLMs的语言先验和统一能力开发了UniChange,这是首个基于MLLM的统一变化检测模型。UniChange集成了生成式语言能力与专门的CD功能。我们的模型通过引入三个特殊标记:[T1]、[T2]和[CHANGE],成功统一了BCD和SCD两种任务。此外,UniChange利用文本提示来指导变化类别的识别,消除了对预定义分类头的依赖。这种设计使UniChange能够有效地从多源数据集中获取知识,即使它们的类别定义存在冲突。在四个公共基准(WHU-CD、S2Looking、LEVIR-CD+和SECOND)上的实验证明了SOTA性能,分别取得了90.41、53.04、78.87和57.62的IoU分数,超越了所有现有方法。代码已在 https://github.com/Erxucomeon/UniChange 提供。 |
| 2025-10-31 | PETAR: Localized Findings Generation with Mask-Aware Vision-Language Modeling for PET Automated Reporting | null | 视觉-语言模型 (VLM) 的最新进展实现了令人印象深刻的多模态推理,但大多数医疗应用仍限于2D成像。在这项工作中,我们将VLM扩展到3D正电子发射断层扫描和计算机断层扫描 (PET/CT),这是一个以大体积数据、微小分散的病灶和冗长放射学报告为特点的领域。我们引入了一个大规模数据集,包含超过11,000个病灶层面描述,与来自5,000多次PET/CT检查的3D分割配对,并通过混合规则基和大语言模型 (LLM) 流水线进行提取。基于此数据集,我们提出了PETAR-4B,一个3D掩膜感知视觉-语言模型,它整合了PET、CT和病灶轮廓,用于空间定位的报告生成。PETAR将全局上下文推理与细粒度病灶感知相结合,生成临床连贯且局部化的发现。全面的自动化和人工评估表明,PETAR显著提升了PET/CT报告生成质量,推动了3D医学视觉-语言理解。 |
| 2025-10-31 | Teaching competencies in physics for engineering education: A qualitative analysis from teaching practice | null | 工程专业中的物理教学提出了学科特有的要求,这些要求将概念建模、实验探究和计算分析交织在一起。本研究考察了九项物理教学能力,这些能力源自国际和区域框架,并在工程背景下进行解读。托卢卡理工学院的19位大学教师完成了一份开放式问卷;使用扎根理论方法(开放编码和主轴编码)对答复进行了分析,并辅以描述性频率分析。结果表明,教师在技术掌握、方法论/数字整合、技术介导的沟通和创新(C1、C2、C6、C9)方面发展较强,而在数字内容创建/改编的信息素养以及数字伦理/安全(C7、C8)方面仍有待发展。研究发现了一个反复出现的理解-应用差距,揭示了从概念认知到实际课堂实践的不均衡转化。我们得出结论,推进工程师的物理教育需要机构支持的、学科特定的专业发展,将建模、实验工作和计算与伦理且可复现的数字实践相结合;这种结合可以促使教师从采纳/适应转向在多模态环境中的持续运用和创新。 |
| 2025-10-31 | NegoCollab: A Common Representation Negotiation Approach for Heterogeneous Collaborative Perception | link | 协同感知通过智能体间的信息共享来扩展感知范围,从而提高了任务性能。不可变异构性给协同感知带来了巨大挑战,因为参与的智能体可能采用不同且固定的感知模型。这导致了智能体间共享的中间特征存在域间隙,从而降低了协同性能。将所有智能体的特征对齐到一个共同表示,可以以较低的训练成本消除域间隙。然而,在现有方法中,共同表示被指定为特定智能体的表示,这使得与该特定智能体存在显著域差异的智能体难以实现适当的对齐。本文提出了NegoCollab,一种基于协商的共同表示的异构协同方法。它在训练期间引入了一个协商器,用于从每个模态智能体的局部表示中导出共同表示,从而有效减少了与各种局部表示之间固有的域间隙。在NegoCollab中,局部表示空间和共同表示空间之间的特征相互转换由一对发送器和接收器实现。为了更好地将局部表示对齐到包含多模态信息的共同表示,除了分布对齐损失之外,我们还引入了结构对齐损失和实用对齐损失来监督训练。这使得共同表示中的知识能够充分提取到发送器中。 |
| 2025-10-31 | Sketch-to-Layout: Sketch-Guided Multimodal Layout Generation | null | 图形布局生成是一个新兴的研究领域,专注于生成从海报设计到文档等各种美观布局。尽管最近的研究探索了结合用户约束来指导布局生成的方法,但这些约束通常需要复杂的规范,从而降低了可用性。我们引入了一种创新方法,利用用户提供的草图作为直观约束,并通过实验证明了这种新指导方法的有效性,将草图到布局(sketch-to-layout)问题确立为一个有前景但目前尚未充分探索的研究方向。为了解决草图到布局问题,我们提出了一种基于多模态Transformer的解决方案,使用草图和内容资产作为输入来生成高质量布局。由于从人工标注者那里收集草图训练数据来训练我们的模型成本非常高,我们引入了一种新颖高效的方法来大规模合成生成训练草图。我们在三个公开可用的数据集(PubLayNet、DocLayNet和SlidesVQA)上训练和评估了我们的模型,结果表明它优于最先进的基于约束的方法,同时提供了更直观的设计体验。为了促进未来的草图到布局研究,我们为上述公共数据集发布了约20万(O(200k))个合成生成的草图。这些数据集可在https://github.com/google-deepmind/sketch_to_layout获取。 |
| 2025-10-31 | Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning | null | 多模态大语言模型(MLLM)通过使具身智能体能够直接从视觉输入进行感知、推理和规划面向任务的行动,从而推动了具身智能体的发展。然而,这种视觉驱动的具身智能体开启了一个新的攻击面:视觉后门攻击,即智能体在场景中出现视觉触发器之前表现正常,一旦触发器出现,便持续执行攻击者指定的多步策略。我们引入了BEAT,这是首个利用环境中的物体作为触发器,向基于MLLM的具身智能体注入此类视觉后门的框架。与文本触发器不同,物体触发器在不同视角和光照下表现出广泛的变化,使其难以可靠地植入。BEAT通过(1) 构建一个涵盖多样化场景、任务和触发器放置的训练集,以使智能体暴露于触发器变异性,以及(2) 引入一个两阶段训练方案来解决这一挑战,该方案首先应用监督微调(SFT),然后是我们新颖的对比触发器学习(CTL)。CTL将触发器判别表述为存在触发器和无触发器输入之间的偏好学习,明确地锐化决策边界,以确保精确的后门激活。在各种具身智能体基准和MLLM上,BEAT实现了高达80%的攻击成功率,同时保持了强大的良性任务性能,并可靠地泛化到分布外触发器放置。值得注意的是,与简单的SFT相比,在有限的后门数据下,CTL将后门激活准确率提高了多达39%。这些发现揭示了基于MLLM的具身智能体中一个关键但尚未探索的安全风险,强调了在实际部署之前对鲁棒防御的需求。 |
| 2025-10-31 | Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model | null | 近来,将视觉-语言-动作模型(VLA)与世界建模相结合,在改进机器人策略学习方面显示出前景。然而,由于这两种模态之间固有的差异,联合预测下一步状态观测和动作序列仍然具有挑战性。为了解决这个问题,我们提出了双流扩散模型(DUST),这是一个世界模型增强的VLA框架,能够处理模态冲突并提升VLA在各种任务中的性能。具体而言,我们提出了一种多模态扩散Transformer架构,它显式地保持独立的模态流,同时仍然能够实现跨模态知识共享。此外,我们为每种模态引入了独立的噪声扰动以及一种解耦的流匹配损失。这种设计使模型能够以双向方式学习联合分布,同时避免了对统一潜在空间的需求。基于训练期间的模态解耦,我们还引入了一种支持测试时缩放的联合采样方法,其中动作和视觉令牌以不同的速率异步演化。通过在RoboCasa和GR-1等模拟基准上的实验,DUST比基线方法获得了高达6%的提升,而我们的测试时缩放方法提供了额外的2-5%的提升。在使用Franka Research 3进行的真实世界任务中,DUST将成功率提高了13%,证实了其在模拟之外的有效性。此外,在来自BridgeV2的无动作视频上进行预训练,在RoboCasa上产生了显著的迁移增益,强调了DUST在大规模VLA预训练方面的潜力。 |
| 2025-10-31 | Image Hashing via Cross-View Code Alignment in the Age of Foundation Models | link | 高效的大规模检索需要同时具有紧凑性和判别性的表示。基础模型提供了强大的视觉和多模态嵌入,但在这些高维空间中进行最近邻搜索的计算开销很大。哈希通过使用二进制码实现快速汉明距离搜索,提供了一种高效的替代方案,然而,现有方法通常依赖于复杂的流水线、多项目标函数、针对单一学习范式设计的方案以及漫长的训练时间。我们引入了CroVCA(跨视图编码对齐),这是一个用于学习在语义对齐视图间保持一致的二进制码的简单而统一的原则。单一的二元交叉熵损失强制执行对齐,而编码率最大化则作为一种抗崩溃正则化器,以促进平衡和多样化的编码。为实现这一点,我们设计了HashCoder,一个带有最终批量归一化层以强制生成平衡编码的轻量级MLP哈希网络。HashCoder可以用作冻结嵌入上的探测头,或通过LoRA微调高效地适应编码器。在各项基准测试中,CroVCA 仅用5个训练周期就取得了最先进的结果。在16比特下,它表现尤为出色——例如,在单个GPU上,COCO数据集上的无监督哈希在2分钟内完成,ImageNet100数据集上的有监督哈希在大约3分钟内完成。这些结果突出了CroVCA的效率、适应性以及广泛适用性。 |
| 2025-10-31 | Toward Accurate Long-Horizon Robotic Manipulation: Language-to-Action with Foundation Models via Scene Graphs | null | 本文提出了一个框架,该框架利用预训练基础模型进行机器人操作,而无需领域特定训练。该框架集成了现成模型,将来自基础模型的多模态感知与能够实现鲁棒任务序列规划的通用推理模型相结合。框架内动态维护的场景图提供了空间感知能力,并支持对环境进行一致的推理。通过一系列桌面机器人操作实验对该框架进行了评估,结果突出了其在直接基于现成基础模型构建机器人操作系统方面的潜力。 |
| 2025-10-31 | Context-Gated Cross-Modal Perception with Visual Mamba for PET-CT Lung Tumor Segmentation | link | 准确的肺肿瘤分割对于改善诊断和治疗规划至关重要,而有效结合PET和CT的解剖学和功能性信息仍然是一个重大挑战。在这项研究中,我们提出了vMambaX,一个轻量级多模态框架,通过一个上下文门控跨模态感知模块(CGM)整合PET和CT扫描图像。vMambaX基于Visual Mamba架构构建,能够自适应地增强模态间特征交互,强调信息丰富的区域同时抑制噪声。在PCLT20K数据集上进行评估,该模型在保持较低计算复杂度的同时优于基线模型。这些结果突出了自适应跨模态门控在多模态肿瘤分割中的有效性,并展示了vMambaX作为用于高级肺癌分析的高效且可扩展框架的潜力。代码可在https://github.com/arco-group/vMambaX获取。 |
| 2025-10-31 | GeoFM: Enhancing Geometric Reasoning of MLLMs via Synthetic Data Generation through Formal Language | null | 多模态大型语言模型(MLLMs)因其处理多模态任务的能力而在学术界和工业界获得了广泛关注。然而,由于高质量几何数据的稀缺性,这些模型在数学几何推理方面面临挑战。为解决这一问题,合成几何数据已成为一项关键策略。当前生成合成几何数据的方法涉及改写或扩展现有问题,并利用预定义规则和模板来创建几何图像和问题。然而,这些方法通常生成缺乏多样性或容易产生噪声的数据。此外,现有方法合成的几何图像往往变化有限,并且与真实的几何图表存在显著偏差。为了克服这些局限性,我们提出了GeoFM,一种合成几何数据的新颖方法。GeoFM使用形式语言在度量空间中探索条件的组合,生成不同于原始问题的高保真几何问题,同时通过符号引擎确保其正确性。实验结果表明,我们的合成数据显著优于现有方法。使用我们数据训练的模型在MathVista的几何问题解决任务中超越了专有的GPT-4o模型18.7%,在GeoQA上超越了16.5%。此外,它在MathVista上超过了领先的开源模型5.7%,在GeoQA上超过了2.7%。 |
| 2025-10-30 | OmniX: From Unified Panoramic Generation and Perception to Graphics-Ready 3D Scenes | link | 构建3D场景有两种流行方式:程序生成和2D提升。其中,基于全景图的2D提升已成为一种有前景的技术,它利用强大的2D生成先验来生成沉浸式、真实且多样化的3D环境。在这项工作中,我们推进了这项技术,以生成适用于基于物理的渲染(PBR)、重照明和模拟的渲染就绪3D场景。我们的关键见解是重新利用2D生成模型,实现几何形状、纹理和PBR材质的全景感知。与现有强调外观生成而忽略内在属性感知的2D提升方法不同,我们提出了OmniX,一个通用且统一的框架。OmniX基于轻量高效的跨模态适配器结构,将2D生成先验重用于广泛的全景视觉任务,包括全景感知、生成和补全。此外,我们构建了一个大规模合成全景图数据集,其中包含来自多样化室内外场景的高质量多模态全景图。大量实验证明了我们模型在全景视觉感知和渲染就绪3D场景生成方面的有效性,为沉浸式和物理真实的虚拟世界生成开辟了新的可能性。 |
| 2025-10-30 | The Quest for Generalizable Motion Generation: Data, Model, and Evaluation | link | 尽管3D人体动作生成(MoGen)在标准基准上取得了近期进展,但现有模型在泛化能力方面仍面临根本瓶颈。相比之下,相邻的生成领域,最值得注意的是视频生成(ViGen),在建模人类行为方面展现出显著的泛化能力,突出了MoGen可以借鉴的可迁移见解。受此观察启发,我们提出了一个综合框架,该框架系统地将ViGen的知识迁移到MoGen,涵盖数据、建模和评估三个关键支柱。首先,我们引入了ViMoGen-228K,这是一个包含228,000个高质量动作样本的大规模数据集,它整合了高保真光学动作捕捉(MoCap)数据、来自网络视频的语义标注动作以及由最先进的ViGen模型生成的合成样本。该数据集包含文本-动作对和文本-视频-动作三元组,大幅扩展了语义多样性。其次,我们提出了ViMoGen,一个基于流匹配的扩散Transformer,它通过门控多模态条件作用统一了来自MoCap数据和ViGen模型的先验知识。为了提高效率,我们进一步开发了ViMoGen-light,这是一个蒸馏变体,它消除了视频生成依赖,同时保持强大的泛化能力。最后,我们提出了MBench,一个旨在进行细粒度评估的分层基准,涵盖动作质量、提示词保真度和泛化能力。大量实验表明,我们的框架在自动评估和人工评估中均显著优于现有方法。代码、数据和基准将公开发布。 |
| 2025-10-30 | ChartAB: A Benchmark for Chart Grounding & Dense Alignment | null | 图表在人类的可视化、推理、数据分析和思想交流中扮演着重要角色。然而,现有的视觉-语言模型(VLM)仍然缺乏对细节的准确感知,并且难以从图表中提取细粒度结构。这种在图表接地方面的局限性也阻碍了它们比较多个图表并进行推理的能力。在本文中,我们引入了一个新颖的“图表对齐基准(ChartAB)”,旨在对VLM在图表接地任务中的表现进行全面评估,这些任务包括从不同类型和复杂度的图表中提取表格数据、定位可视化元素和识别各种属性。我们设计了一个JSON模板,以方便计算专门为每个接地任务定制的评估指标。通过整合一个新颖的两阶段推理工作流,该基准可以进一步评估VLM对齐和比较两个图表之间元素/属性的能力。我们对几个近期VLM的评估分析揭示了它们在图表理解中的感知偏差、弱点、鲁棒性和幻觉方面的新见解。这些发现突出了VLM在图表理解任务中的细粒度差异,并指出了当前模型中需要加强的特定技能。 |
| 2025-10-30 | SteerVLM: Robust Model Control through Lightweight Activation Steering for Vision Language Models | null | 这项工作引入了SteerVLM,一个轻量级引导模块,旨在引导视觉-语言模型(VLM)生成更符合预期指令的输出。我们的方法从编码目标行为和反向行为的成对提示的潜在嵌入中学习,以动态调整连接语言模态与图像上下文的激活。这使得在不修改模型权重的情况下,实现对复杂输出语义的细粒度、推理时控制,同时保持在非目标任务上的性能。我们的引导模块所需的学习参数仅为原始VLM大小的0.14%。我们的引导模块通过维度级激活调制和跨层的自适应引导获得模型控制能力,无需预先提取静态向量或手动调整干预点。此外,我们引入了VNIA(视觉叙事意图对齐),一个专门为促进VLM引导技术发展和评估而创建的多模态数据集。我们的方法在VLM的引导和幻觉缓解基准上优于现有干预技术,并通过激活工程为多模态模型控制提出了一种鲁棒的解决方案。 |
| 2025-10-30 | Unveiling Intrinsic Text Bias in Multimodal Large Language Models through Attention Key-Space Analysis | null | 多模态大语言模型(MLLM)在处理视觉-语言数据时表现出对文本输入的显著偏好,限制了它们从视觉证据进行有效推理的能力。与以往将这种文本偏置归因于数据不平衡或指令微调等外部因素的研究不同,我们提出这种偏置源于模型内部架构。具体来说,我们假设视觉键向量(Visual Keys)相对于在仅语言预训练期间学习到的文本键空间处于分布外(OOD)。因此,这些视觉键在注意力计算期间系统地接收到较低的相似性分数,导致它们在上下文表示中未被充分利用。为了验证这一假设,我们从LLaVA和Qwen2.5-VL中提取键向量,并使用定性(t-SNE)和定量(Jensen-Shannon散度)方法分析它们的分布结构。结果提供了直接证据,表明视觉和文本键在注意力空间中占据着明显不同的子空间。模态间差异具有统计学意义,超过模态内变异几个数量级。这些发现揭示文本偏置源于注意力键空间内的内在错位,而不仅仅是外部数据因素。 |
| 2025-10-30 | All You Need for Object Detection: From Pixels, Points, and Prompts to Next-Gen Fusion and Multimodal LLMs/VLMs in Autonomous Vehicles | null | 自动驾驶汽车 (AVs) 正通过智能感知、决策和控制系统的进步,改变着交通运输的未来。然而,它们的成功取决于一项核心能力,即在复杂多模态环境中的可靠目标检测。尽管计算机视觉 (CV) 和人工智能 (AI) 的最新突破推动了显著进展,但该领域仍面临一个严峻挑战,即知识在多模态感知、上下文推理和协同智能方面仍然分散。本综述通过对自动驾驶汽车中的目标检测进行前瞻性分析来弥补这一空白,重点强调视觉-语言模型 (VLMs)、大语言模型 (LLMs) 和生成式人工智能等新兴范式,而非重新审视过时技术。我们首先系统地回顾了自动驾驶汽车传感器的基本范围(摄像头、超声波、激光雷达和雷达)及其融合策略,不仅强调了它们在动态驾驶环境中的能力和局限性,还指出了它们与LLM/VLM驱动的感知框架最新进展相结合的潜力。接下来,我们介绍了一种超越简单收集的自动驾驶汽车数据集的结构化分类,定位了自车、基于基础设施和协同数据集(例如,车-车V2V、车-基础设施V2I、车-万物V2X、基础设施-基础设施I2I),并随后对数据结构和特征进行了交叉分析。最后,我们分析了前沿检测方法,范围从2D和3D管道到混合传感器融合,并特别关注由视觉Transformer (ViTs)、大语言模型 (LLMs) 和小语言模型 (SLMs) 以及视觉-语言模型 (VLMs) 驱动的新兴Transformer方法。通过综合这些观点,本综述提供了一份关于当前能力、开放挑战和未来机遇的清晰路线图。 |
| 2025-10-30 | Low-Altitude UAV-Carried Movable Antenna for Joint Wireless Power Transfer and Covert Communications | null | 物联网(IoT)网络的普及对可持续能源解决方案产生了迫切需求,尤其对于电池受限的空间分布式物联网节点。虽然搭载无线能量传输(WPT)能力的低空无人机(UAV)提供了一种有前景的解决方案,但有助于高效能量传输的视距信道也将敏感操作数据暴露给攻击者。本文提出了一种新颖的低空无人机携带的可移动天线增强传输系统,联合无线能量传输(WPT)和隐蔽通信,该系统通过利用无线能量信号作为天然掩护,同时为物联网节点补充能量并与隐蔽用户建立传输链路。然后,我们建立了一个多目标优化问题,旨在联合最大化物联网节点的总收集能量和隐蔽用户的总可达速率,同时最小化低空无人机的推进能量消耗。为了解决非凸和时间耦合的优化问题,我们提出了一种专家混合增强型软演员-评论家(MoE-SAC)算法,该算法采用稀疏Top-K门控浅层专家混合架构来表示源于冲突优化目标的多模态策略分布。我们还引入了一个动作投影模块,明确强制执行每时隙功率预算约束和天线位置约束。仿真结果表明,所提出的方法显著优于某些基线方法和其他最先进的深度强化学习算法。 |
| 2025-10-30 | Emu3.5: Native Multimodal Models are World Learners | null | 我们引入了Emu3.5,一个大规模多模态世界模型,能够原生预测视觉和语言的下一个状态。Emu3.5通过统一的下一词元预测目标进行端到端预训练,其训练语料库包含超过10万亿词元的视觉-语言交错数据,这些数据主要来源于互联网视频的连续帧和文本记录。该模型自然地接受交错的视觉-语言输入并生成交错的视觉-语言输出。Emu3.5还通过大规模强化学习进行后训练,以增强多模态推理和生成能力。为了提高推理效率,我们提出了离散扩散适配(DiDA)方法,它将逐词元解码转换为双向并行预测,在不牺牲性能的情况下将每图像推理速度提升了约20倍。Emu3.5展现出强大的原生多模态能力,包括长时程视觉-语言生成、任意到图像(X2I)生成以及复杂富文本图像生成。它还展现出可泛化的世界建模能力,支持在多样化场景和任务中进行时空一致的世界探索和开放世界具身操控。对比而言,Emu3.5在图像生成和编辑任务上取得了与Gemini 2.5 Flash Image (Nano Banana)相当的性能,并在一系列交错生成任务上展现出更优异的结果。我们在https://github.com/baaivision/Emu3.5开源了Emu3.5,以支持社区研究。 |
| 2025-10-30 | Representation-Level Counterfactual Calibration for Debiased Zero-Shot Recognition | null | 物体-上下文捷径仍然是视觉-语言模型中一个持续存在的挑战,当测试时场景与熟悉的训练共现情况不同时,这会损害零样本可靠性。我们将此问题重新定义为因果推断问题并提出疑问:如果物体出现在不同的环境中,预测是否会保持不变?为了在推理时回答这个问题,我们估计CLIP表征空间内的物体和背景期望,并通过将物体特征与从外部数据集、批次邻居或文本描述中采样的多样化替代上下文重新组合来合成反事实嵌入。通过估计总直接效应和模拟干预,我们进一步减去仅背景的激活,从而保留有益的物体-上下文交互,同时减轻幻觉分数。无需重新训练或提示设计,我们的方法在上下文敏感基准上显著提高了最差组和平均准确率,建立了新的零样本SOTA。除了性能之外,我们的框架提供了一种轻量级的表征层面的反事实方法,为去偏且可靠的多模态推理提供了一条实用的因果途径。 |
| 2025-10-30 | Towards Fine-Grained Vision-Language Alignment for Few-Shot Anomaly Detection | null | 小样本异常检测(FSAD)方法通过少量已知正常样本识别异常区域。大多数现有方法依赖于预训练视觉-语言模型(VLM)的泛化能力,通过文本描述和图像之间的特征相似性来识别潜在异常区域。然而,由于缺乏详细的文本描述,这些方法只能预定义图像级描述来匹配每个视觉块令牌以识别潜在异常区域,这导致图像描述与块级视觉异常之间的语义错位,从而实现次优的定位性能。为了解决上述问题,我们提出了多级细粒度语义标注(MFSC),通过自动化构建管道为现有异常检测数据集提供多级和细粒度的文本描述。基于MFSC,我们提出了一个名为FineGrainedAD的新颖框架,以提高异常定位性能,该框架由两个组件组成:多级可学习提示(MLLP)和多级语义对齐(MLSA)。MLLP通过自动替换和拼接机制将细粒度语义引入多级可学习提示中,而MLSA设计了区域聚合策略和多级对齐训练,以促进可学习提示更好地与相应视觉区域对齐。实验表明,所提出的FineGrainedAD在MVTec-AD和VisA数据集的小样本设置中取得了优异的整体性能。 |
| 2025-10-28 | Advancing site-specific disease and pest management in precision agriculture: From reasoning-driven foundation models to adaptive, feedback-based learning | null | 作物精准病害管理(SSDM)通过机器学习和深度学习(ML和DL)在实时计算机视觉方面取得了快速进展。研究已从手工特征提取发展到大规模自动化特征学习。借助基础模型(FM),作物病害数据集现正以根本性的新方式进行处理。与传统神经网络不同,FM整合视觉和文本数据,以文本形式解释症状,推理症状与管理之间的关系,并支持为种植者和教育工作者提供交互式问答。机器人技术中的自适应学习和模仿学习进一步实现了田间病害管理。本综述筛选了约40篇关于FM在SSDM中应用的文章,重点关注大语言模型(LLM)和视觉-语言模型(VLM),并讨论了它们在自适应学习(AL)、强化学习(RL)和用于精准喷洒的数字孪生框架中的作用。主要发现包括:(a) FM在2023-24年文献数量激增,正获得关注;(b) VLM的发展速度超过LLM,发表数量增加了5-10倍;(c) RL和AL在智能喷洒方面仍处于萌芽阶段;(d) 结合RL的数字孪生可以虚拟模拟精准喷洒;(e) 解决模拟与现实的差距对于实际部署至关重要;(f) 人机协作仍然有限,尤其是在机器人检测早期症状、人类验证不确定情况的人在环方法中;(g) 具有实时反馈的多模态FM将推动下一代SSDM。如需获取更新、资源和贡献,请访问https://github.com/nitin-dominic/AgriPathogenDatabase,提交论文、代码或数据集。 |
| 2025-10-28 | "Mm, Wat?" Detecting Other-initiated Repair Requests in Dialogue | null | 维持相互理解是人际对话中避免对话中断的关键组成部分,其中修复,尤其是他方发起式修复(OIR,当一方发出疑难信号并促使另一方解决时),起着至关重要的作用。然而,对话代理(CAs)仍然未能识别用户发起的修复,导致对话中断或脱离。本工作提出一个多模态模型,通过整合基于会话分析的语言和韵律特征,自动检测荷兰语对话中的修复发起。结果表明,韵律线索补充了语言特征,并显著提高了预训练文本和音频嵌入的结果,提供了关于不同特征如何相互作用的见解。未来方向包括整合视觉线索,探索多语言和跨语境语料库,以评估其鲁棒性和泛化能力。 |
| 2025-10-28 | OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents | null | 随着决策和推理能力的进步,多模态智能体在计算机应用场景中展现出巨大潜力。过去的评估主要评估了图形用户界面(GUI)交互技能,而工具调用能力,例如由模型上下文协议(MCP)支持的能力,却在很大程度上被忽视了。将集成工具调用的智能体与仅在GUI交互方面进行评估的智能体进行比较,本质上是不公平的。我们提出了OSWorld-MCP,这是首个用于在真实世界环境中评估计算机使用智能体的工具调用、GUI操作和决策能力的全面且公平的基准。我们设计了一种新颖的自动化代码生成管道来创建工具,并将其与从现有工具中精心挑选的部分相结合。严格的手动验证产生了158个高质量工具(涵盖7种常用应用程序),每个工具都经过验证,确保了其正确的功能性、实际适用性和多功能性。对OSWorld-MCP上最先进多模态智能体进行的广泛评估表明,MCP工具普遍提高了任务成功率(例如,OpenAI o3在15步时从8.3%提高到20.4%,Claude 4 Sonnet在50步时从40.1%提高到43.3%),这强调了评估工具调用能力的重要性。然而,即使是最强的模型也具有相对较低的工具调用率,仅为36.3%,这表明仍有改进空间,并凸显了该基准的挑战性。通过明确衡量MCP工具使用技能,OSWorld-MCP加深了对多模态智能体的理解,并为评估其在复杂的、工具辅助环境中的性能设定了新标准。我们的代码、环境和数据可在https://osworld-mcp.github.io公开获取。 |
| 2025-10-28 | Generative AI for Healthcare: Fundamentals, Challenges, and Perspectives | null | 生成式人工智能 (GenAI) 正在席卷全球。它为推进和颠覆现有实践(包括医疗保健)带来了变革性机遇。从用于临床笔记综合和对话辅助的大语言模型 (LLMs) 到整合医学影像、电子健康记录和基因组数据以提供决策支持的多模态系统,GenAI 正在改变医学实践和医疗保健服务(例如诊断和个性化治疗),在减轻临床医生认知负担方面具有巨大潜力,从而改善整体医疗保健服务。然而,GenAI 在医疗保健领域的部署需要深入理解医疗保健任务以及可以实现什么和不能实现什么。在本文中,我们提出了一种以数据为中心的范式,用于医疗保健领域 GenAI 系统的设计和部署。具体而言,我们通过将医疗数据生态系统作为生成式医疗保健系统的基础底层,重新定位了数据生命周期。该生态系统旨在可持续地支持多样化医疗数据和知识的整合、表示和检索。通过有效且高效的数据处理管道(例如语义向量搜索和上下文查询),它支持上游模型组件和下游临床应用的 GenAI 驱动操作。最终,它不仅为基础模型提供高质量、多模态数据,用于大规模预训练和领域特定微调,而且还作为知识检索后端,通过代理层支持任务特定推理。该生态系统使得GenAI能够用于高质量和有效的医疗保健服务。 |
| 2025-10-28 | Latent Sketchpad: Sketching Visual Thoughts to Elicit Multimodal Reasoning in MLLMs | null | 多模态大型语言模型(MLLM)在视觉理解方面表现出色,但在需要视觉规划和想象的复杂场景中常常表现不佳。受人类将草图作为一种视觉思维形式来发展和交流想法的启发,我们引入了Latent Sketchpad,一个为MLLM配备内部视觉草稿本的框架。MLLM的内部视觉表示传统上局限于感知理解,我们对其进行了重新利用,以支持生成式视觉思维,同时不损害推理能力。基于前沿MLLM,我们的方法将视觉生成直接融入其原生的自回归推理过程,允许模型将文本推理与视觉潜在表示的生成交织在一起。这些潜在表示引导内部思维过程,并可以被转换为草图图像以提高可解释性。为实现这一点,我们引入了两个组件:一个上下文感知视觉头部自回归地生成视觉表示,以及一个预训练的草图解码器将这些渲染成人类可解释的图像。我们通过我们新的MazePlanning数据集评估了该框架。跨不同MLLM的实验表明,Latent Sketchpad提供了与它们骨干模型相当甚至更优的推理性能。它进一步泛化到不同的前沿MLLM,包括Gemma3和Qwen2.5-VL。通过将模型的文本推理扩展到视觉思维,我们的框架为更丰富的人机交互和更广泛的应用开辟了新的机会。更多详细信息和资源可在我们的项目页面获取:https://latent-sketchpad.github.io/。 |
| 2025-10-28 | SPARTA: Evaluating Reasoning Segmentation Robustness through Black-Box Adversarial Paraphrasing in Text Autoencoder Latent Space | null | 多模态大语言模型(MLLM)在推理分割等视觉-语言任务中展现出令人印象深刻的能力,这些任务中模型根据文本查询生成分割掩码。尽管先前的工作主要集中于扰动图像输入,但语义等效的文本释义(在用户以不同方式表达相同意图的实际应用中至关重要)仍未得到充分探索。为解决这一空白,我们引入了一种新颖的对抗性释义任务:生成语法正确、保留原始查询含义但能降低分割性能的释义。为评估对抗性释义的质量,我们开发了一套全面的自动评估协议,并通过人工研究进行了验证。此外,我们引入了SPARTA,这是一种黑盒、句子级优化方法,它在文本自编码器的低维语义潜在空间中运行,并由强化学习指导。SPARTA取得了显著更高的成功率,在ReasonSeg和LLMSeg-40k数据集上,其性能比现有方法高出2倍。我们使用SPARTA和有竞争力的基线来评估先进推理分割模型的鲁棒性。我们揭示了即使在严格的语义和语法约束下,这些模型仍然容易受到对抗性释义的攻击。所有代码和数据将在论文接收后公开发布。 |
| 2025-10-28 | OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows | null | 由视觉-语言模型 (VLM) 驱动的计算机使用智能体在操作移动平台等数字环境方面展现了类人能力。尽管这些智能体在推进数字自动化方面具有巨大潜力,但它们可能进行的不安全操作(例如系统入侵和隐私泄露)正引起重大担忧。在移动环境广阔而复杂的运行空间中检测这些安全问题,是一个艰巨且仍未得到充分探索的挑战。为了为移动智能体安全研究奠定基础,我们引入了 MobileRisk-Live,这是一个动态沙盒环境,并附带一个包含具有细粒度标注的真实轨迹的安全检测基准。在此基础上,我们提出了 OS-Sentinel,这是一种新颖的混合安全检测框架,它协同结合了一个用于检测显式系统级违规的形式化验证器和一个基于VLM的上下文判断器,用于评估上下文风险和智能体行为。实验表明,OS-Sentinel 在多个指标上相较于现有方法实现了 10%-30% 的改进。进一步的分析提供了关键见解,有助于开发更安全、更可靠的自主移动智能体。 |
| 2025-10-28 | Self-Normalized Quantile Empirical Saddlepoint Approximation | null | 我们提出了一种用于总体分位数频率推断的无密度方法,称作自归一化分位数经验鞍点近似 (SNQESA)。该方法从固定分位数阈值的指示得分构建自归一化枢轴量,然后采用受约束经验鞍点近似来获得高精度的尾部概率。反演这些尾部区域可以产生置信区间和检验,而无需估计目标分位数处的未知密度,从而消除了带宽选择以及影响基于核的Wald/Hall-Sheather区间的边界问题。在温和的局部正则性条件下,所得程序在反演后能达到高阶尾部精度和二阶覆盖率。由于枢轴量基于有界伯努利归约,该方法对于偏斜和重尾分布以及极端分位数仍然可靠。跨轻尾、重尾和多峰分布的大量蒙特卡罗实验表明,SNQESA 在小到中等样本量下提供稳定的覆盖率和有竞争力的区间长度,同时比大B重采样方案快几个数量级。一项采用滚动窗口的风险价值 (VaR) 实证研究进一步突出了其在尾部性能和计算效率方面的优势。该框架自然地扩展到两样本分位数差异和回归类型设置,为无分布分位数推断提供了一种实用、分析透明的替代方案,可替代核方法、自举法和经验似然法。 |
| 2025-10-28 | A Unified Geometric Space Bridging AI Models and the Human Brain | null | 数十年来,神经科学家和计算机科学家一直怀揣着一个共同的抱负:理解智能并构建它。现代人工神经网络在语言、感知和推理方面已能与人类匹敌,然而,这些人工系统是否像大脑一样组织信息,在很大程度上仍是未知数。现有的脑-AI对齐研究已经揭示了这两个系统之间惊人的对应关系,但这类比较仍局限于特定的输入和任务,未能提供一个通用基础来比较具有不同模态(视觉、语言或多模态)的AI模型是如何内在组织起来的。在此,我们引入了一个开创性的概念——类脑空间:这是一个统一的几何空间,无论输入模态、任务或感觉域如何,每个AI模型都可以通过将其内在的空间注意力拓扑组织映射到规范的人类功能性脑网络上,从而在这个空间中被精确地定位和比较。我们对151个Transformer模型进行了广泛分析,这些模型涵盖了最先进的大型视觉模型、大型语言模型和大型多模态模型,结果揭示了这个空间内存在一个连续的弧形几何结构,反映了类脑性的逐渐增强;不同模型在这个几何结构中呈现出与不同类脑程度相关的独特分布模式,这些模式不仅受到其模态的影响,还受到预训练范式是否强调全局语义抽象以及位置编码方案是否促进了跨不同模态的深度融合的影响。此外,模型的类脑程度及其下游任务性能并非“同卵双胞胎”。类脑空间提供了首个统一框架,用于跨领域定位、量化和比较智能,揭示了连接机器与大脑的深层组织原则。 |
| 2025-10-28 | Sound Source Localization for Spatial Mapping of Surgical Actions in Dynamic Scenes | null | 目的:手术场景理解是推进计算机辅助和智能手术系统的关键。当前方法主要依赖于视觉数据或端到端学习,这限制了细粒度上下文建模。本工作旨在通过整合三维声学信息来增强手术场景表示,从而实现对手术环境在时间上和空间上感知的多模态理解。方法:我们提出了一种新颖的框架,通过将相控麦克风阵列的声学定位信息投影到RGB-D相机生成的动态点云上,从而生成手术场景的四维视听表示。一个基于Transformer的声学事件检测模块识别包含工具-组织交互的相关时间段,这些交互在视听场景表示中被空间定位。该系统在专家执行模拟手术过程的真实手术室设置中进行了实验评估。结果:所提出的方法成功地在三维空间中定位了手术声学事件,并将其与视觉场景元素关联起来。实验评估表明了准确的空间声音定位和多模态数据的鲁棒融合,提供了手术活动的全面、动态表示。结论:这项工作首次提出了在动态手术场景中进行空间声音定位的方法,标志着朝着多模态手术场景表示方向的重大进展。通过整合声学和视觉数据,所提出的框架能够实现更丰富的上下文理解,并为未来的智能和自主手术系统奠定基础。 |
| 2025-10-23 | Small Drafts, Big Verdict: Information-Intensive Visual Reasoning via Speculation | link | 大型视觉-语言模型(VLM)在多模态理解方面取得了显著进展,但在对信息密集型图像进行推理时仍面临挑战,这类图像将文本标注与细粒度图形元素密集交织在一起。主要挑战在于精确识别密集布局中的关键线索以及进行多跳推理以整合分散的证据。我们提出了推测裁决(SV),一个受推测解码启发的无需训练的框架,它将多个轻量级草稿专家与一个大型裁决模型相结合。在草稿阶段,小型VLM充当草稿专家以生成推理路径,提供多样化的定位候选;在裁决阶段,一个强大的VLM合成这些路径以生成最终答案,最大限度地降低计算成本同时恢复正确答案。为了进一步提高效率和准确性,SV引入了一种共识专家选择机制,仅将高一致性的推理路径转发给裁决模型。实验结果表明,SV在具有挑战性的信息密集型和高分辨率视觉问答基准(包括InfographicVQA、ChartMuseum、ChartQAPro和HR-Bench 4K)上取得了持续的提升。通过从多个部分准确的推理路径中综合出正确见解,与大型专有模型或训练流程相比,SV实现了错误纠正和成本效益。代码可在https://github.com/Tinaliu0123/speculative-verdict获取。 |
| 2025-10-23 | ARGenSeg: Image Segmentation with Autoregressive Image Generation Model | null | 我们提出了一种新颖的基于自回归生成范式(ARGenSeg)的图像分割方法,在一个统一的框架内实现了多模态理解和像素级感知。先前将图像分割集成到多模态大语言模型(MLLM)中的工作通常采用边界点表示或专用的分割头。这些方法依赖于离散表示或馈入到任务特定解码器中的语义提示,这限制了 MLLM 捕捉细粒度视觉细节的能力。为了解决这些挑战,我们引入了一个基于图像生成的 MLLM 分割框架,它能够自然地为目标对象生成密集的掩码。我们利用 MLLM 输出视觉 token,并使用一个通用的 VQ-VAE 将它们去 token 化为图像,使分割完全依赖于 MLLM 的像素级理解。为了减少推理延迟,我们采用了一种下一尺度预测策略,以并行方式生成所需的视觉 token。大量实验表明,我们的方法在多个分割数据集上超越了先前最先进的方法,推理速度显著提升,同时保持了强大的理解能力。 |
| 2025-10-23 | Empathic Prompting: Non-Verbal Context Integration for Multimodal LLM Conversations | null | 我们提出了“共情提示”,这是一种新颖的多模态人机交互框架,它通过融入隐式非语言上下文来丰富大型语言模型(LLM)对话。该系统集成了一项商用面部表情识别服务,以捕获用户的情绪线索,并在提示过程中将其作为上下文信号嵌入。与传统多模态界面不同,共情提示无需用户显式控制;相反,它以非侵入式方式将情感信息融入文本输入,以实现对话的连贯性和流畅性对齐。该架构是模块化和可扩展的,允许集成额外的非语言模块。我们描述了通过本地部署的DeepSeek实例实现的系统设计,并报告了一项初步的服务和可用性评估(N=5)。结果显示,非语言输入被一致地整合到连贯的LLM输出中,参与者特别强调了对话的流畅性。除了这一概念验证之外,共情提示也指向了聊天机器人介导的通信中的应用,特别是在医疗保健或教育等领域,这些领域中用户的情绪信号至关重要,但在口头交流中却常常不透明。 |
| 2025-10-23 | Amplifying Prominent Representations in Multimodal Learning via Variational Dirichlet Process | link | 开发有效的多模态融合方法在许多现实世界场景中变得越来越重要,例如医疗保健和金融。关键挑战在于如何在学习跨模态交互的同时,保留每种模态的特征表达能力。现有方法主要关注跨模态对齐,然而,过分强调模态边际分布的对齐可能会施加过度的正则化,并阻碍每种模态中有意义的表示学习。狄利克雷过程(DP)混合模型是一种强大的贝叶斯非参数方法,它通过其富者愈富特性(即为最显著特征分配不断增加的权重)来放大这些最显著特征。受DP这一独特特性的启发,我们提出了一种新的DP驱动的多模态学习框架,该框架能够自动在显著的模态内表示学习和跨模态对齐之间实现最佳平衡。具体而言,我们假设每种模态都遵循多元高斯混合分布,并进一步采用DP来计算所有分量的混合权重。这种范式允许DP动态分配特征的贡献并选择最显著的特征,利用其富者愈富特性,从而促进多模态特征融合。在多个多模态数据集上进行的大量实验证明了我们模型优于其他竞争对手的卓越性能。消融分析进一步验证了DP在对齐模态分布方面的有效性及其对关键超参数变化的鲁棒性。代码已匿名公开于 https://github.com/HKU-MedAI/DPMM.git |
| 2025-10-23 | Diagnosing Visual Reasoning: Challenges, Insights, and a Path Forward | null | 整合了视觉和文本推理的多模态大语言模型 (MLLMs) 利用思维链 (CoT) 提示来处理复杂的视觉任务,但仍表现出视觉幻觉以及对文本先验知识的过度依赖。我们使用一个三阶段评估框架对最先进的视觉-语言模型进行了系统性诊断,揭示了关键的故障模式。为解决这些问题,我们提出了一种基于智能体的架构,该架构结合了LLM推理和轻量级视觉模块,从而实现了细粒度分析以及对推理链的迭代优化。我们的结果强调,未来的视觉推理模型应侧重于整合更广泛的专用工具来分析视觉内容。我们的系统取得了显著的提升(在MMMU上提升10.3,在MathVista上提升6.0,相对于7B基线),媲美甚至超越了更大的模型。我们将发布我们的框架和评估套件,以促进未来的研究。 |
| 2025-10-23 | Large Multimodal Models-Empowered Task-Oriented Autonomous Communications: Design Methodology and Implementation Challenges | null | 大语言模型 (LLM) 和大多模态模型 (LMM) 取得了前所未有的突破,在自然语言理解、生成和复杂推理方面展示出卓越的能力。这种变革性潜力使其成为机器、车辆和类人机器人之间6G自主通信的关键使能技术。在本文中,我们概述了借助LLM/LMM实现面向任务的自主通信,重点关注多模态感知集成、自适应重配置以及用于无线任务的提示/微调策略。我们通过三个案例研究展示了该框架:基于LMM的交通控制、基于LLM的机器人调度以及基于LMM的环境感知信道估计。实验结果表明,所提出的LLM/LMM辅助自主系统显著优于传统的判别式深度学习 (DL) 模型技术,在动态目标、变化的输入参数和异构多模态条件下仍能保持鲁棒性,而传统静态优化在这些条件下性能会下降。 |
| 2025-10-23 | Towards Reliable Evaluation of Large Language Models for Multilingual and Multimodal E-Commerce Applications | null | 大语言模型(LLMs)在通用NLP基准测试中表现出色,但它们在专业领域的能力仍未得到充分探索。在电子商务领域,现有评估,如EcomInstruct、ChineseEcomQA、eCeLLM和Shopping MMLU,存在任务多样性有限(例如,缺乏产品指导和售后问题)、任务模态有限(例如,缺乏多模态数据)、使用合成或人工整理的数据以及狭隘地关注英语和汉语等问题,使得从业者缺乏可靠工具来在复杂、真实的购物场景中评估模型。我们引入了EcomEval,一个综合性的多语言多模态基准,用于评估电子商务领域的大语言模型。EcomEval涵盖六个类别和37项任务(包括8项多模态任务),主要来源于真实的客户查询和交易日志,反映了真实业务交互中嘈杂和异构的性质。为确保参考答案的质量和可扩展性,我们采用半自动化流程,其中大模型起草候选回复,随后由超过50名具有强大电子商务和多语言专业知识的专家标注员审查和修改。我们通过平均不同规模和能力模型的评估分数来定义每个问题和任务类别的难度级别,从而实现以挑战为导向的细粒度评估。EcomEval还涵盖七种语言,包括五种低资源东南亚语言,提供了先前工作中没有的多语言视角。 |
| 2025-10-23 | Diffusion Autoencoders with Perceivers for Long, Irregular and Multimodal Astronomical Sequences | null | 自监督学习已成为表征学习的核心策略,但用于编码数据的大多数架构仅在图像、音频和视频等规则采样的输入上得到验证。在许多科学领域,数据则以长、不规则和多模态序列的形式出现。为了从这些数据中提取语义信息,我们引入了带有Perceiver的扩散自编码器(daep)。daep对异构测量进行标记化,使用Perceiver编码器对其进行压缩,并使用Perceiver-IO扩散解码器进行重建,从而在多样化的数据设置中实现可扩展学习。为了对daep架构进行基准测试,我们将掩码自编码器适配到Perceiver编码器/解码器设计中,并在与daep同属一个架构家族中建立了一个强大的基线(maep)。在各种光谱和光度天文数据集上,daep比VAE和maep基线实现了更低的重建误差,生成了更具区分性的潜在空间,并更好地保留了精细尺度结构。这些结果确立了daep作为数据以不规则、异构序列形式出现的科学领域的有效框架。 |
| 2025-10-23 | EmbodiedBrain: Expanding Performance Boundaries of Task Planning for Embodied Intelligence | null | 通用人工智能(AGI)的实现需要具身AI智能体能够在物理环境中进行鲁棒的空间感知、有效的任务规划和自适应执行。然而,当前用于具身任务的大语言模型(LLMs)和多模态大语言模型(MLLMs)存在主要局限性,包括模型设计与智能体需求之间的显著差距、实时延迟与性能之间不可避免的权衡,以及使用不真实、离线的评估指标。为解决这些挑战,我们提出了EmbodiedBrain,这是一种新颖的视觉语言基础模型,提供7B和32B两种参数规模。我们的框架具有智能体对齐的数据结构,并采用强大的训练方法,该方法将大规模有监督微调(SFT)与步增强组相对策略优化(Step-GRPO)相结合,通过将先行步骤整合为引导前兆,从而提升长程任务成功率。此外,我们整合了一个全面的奖励系统,包括一个在基础设施层面加速的生成式奖励模型(GRM),以提高训练效率。为实现彻底的验证,我们建立了一个由三部分组成的评估系统,涵盖通用、规划和端到端模拟基准,其突出特点是提出了一个新颖且具有挑战性的模拟环境并将其开源。实验结果表明,EmbodiedBrain在所有指标上均取得了卓越性能,为具身基础模型树立了新的最先进水平。为下一代通用具身智能体铺平道路,我们开源了所有数据、模型权重和评估方法,可在https://zterobot.github.io/EmbodiedBrain.github.io获取。 |
| 2025-10-23 | SheafAlign: A Sheaf-theoretic Framework for Decentralized Multimodal Alignment | null | 传统多模态对齐方法假设所有模态之间存在相互冗余,这种假设在真实世界的分布式场景中失效。我们提出了 SheafAlign,一个用于去中心化多模态对齐的基于层论的框架,它用多个比较空间取代了单一空间对齐。这种方法通过层结构建模成对模态关系,并利用基于去中心化对比学习的目标进行训练。SheafAlign 克服了现有方法的局限性,因为它不要求所有模态之间存在相互冗余,同时保留了共享信息和独特信息。在多模态感知数据集上的实验表明,SheafAlign 具有优越的零样本泛化能力、跨模态对齐能力以及对缺失模态的鲁棒性,且通信成本比最先进的基线降低了 50%。 |
| 2025-10-21 | Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs | link | 尽管多模态大语言模型(MLLMs)擅长整体理解,但它们在捕捉包含复杂场景的密集世界时面临挑战,这需要对复杂细节和对象间的相互关系进行细粒度分析。区域级MLLMs一直是一个有希望的方向。然而,先前的尝试通常被优化为孤立地理解给定区域,忽略了关键的全局上下文。为解决这个问题,我们引入了Grasp Any Region (GAR),以实现全面的区域级视觉理解。凭借一种有效的RoI对齐特征重放技术,GAR支持 (1) 通过利用必要的全局上下文实现精确感知,以及 (2) 建模多个提示之间的交互。综合来看,它自然实现了 (3) 高级组合推理,以回答关于任何区域的特定自由形式问题,将范式从被动描述转变为主动对话。此外,我们构建了GAR-Bench,它不仅为单区域理解提供了更准确的评估,而且更重要的是,衡量了多区域间的交互和复杂推理能力。大量实验表明,GAR-1B不仅保持了最先进的图像描述能力(例如,在DLC-Bench上超越DAM-3B +4.5),而且在建模多个提示之间的关系以及高级理解能力方面表现出色,甚至在GAR-Bench-VQA上超越了InternVL3-78B。更重要的是,我们的零样本GAR-8B甚至在VideoRefer-BenchQ上超越了同领域的VideoRefer-7B,表明其强大的能力可以很容易地迁移到视频领域。 |
| 2025-10-21 | DSI-Bench: A Benchmark for Dynamic Spatial Intelligence | null | 推理动态空间关系至关重要,因为观察者和物体常常同时移动。尽管视觉-语言模型(VLM)和视觉专业模型在2D任务和静态场景中表现出色,但它们全面理解动态3D场景的能力仍然有限。我们引入了动态空间智能,并提出了DSI-Bench,这是一个包含近1,000个动态视频和超过1,700个人工标注问题的基准,涵盖了观察者和物体的九种解耦运动模式。空间和时间对称设计减少了偏差,并实现了对模型关于自身运动和物体运动推理的系统评估。我们对14个VLM和专业模型的评估揭示了主要局限性:模型经常混淆观察者和物体的运动,表现出语义偏差,并且未能准确推断动态场景中的相对关系。我们的DSI-Bench为未来开发具备动态空间智能的通用模型和专业模型提供了有价值的发现和见解。 |
| 2025-10-21 | See the Text: From Tokenization to Visual Reading | link | 人们看到文本。人类通过将单词识别为视觉对象,包括其形状、布局和模式,然后将其与意义联系起来进行阅读,这使我们能够有效地处理拼写错误、扭曲字体和各种书写系统。然而,现代大型语言模型(LLMs)依赖于子词分词,将文本从固定词汇表中分割成片段。尽管这种方法对高资源语言有效,但它会过度分割低资源语言,产生冗长、语言上无意义的序列,并增加计算量。在这项工作中,我们挑战了这种根深蒂固的范式,并转向了一种以视觉为中心的替代方案。我们的方法SeeTok将文本渲染为图像(视觉文本),并利用预训练的多模态大型语言模型来解释它们,复用从大规模多模态训练中学习到的强大OCR和文本-视觉对齐能力。在三种不同的语言任务中,SeeTok与子词分词器持平或超越它们,同时所需的词元减少了4.43倍,并将FLOPs减少了70.5%,并在跨语言泛化、对排版噪声的鲁棒性以及语言层次结构方面取得了额外收益。SeeTok标志着从符号分词向类人视觉阅读的转变,并朝着更自然和认知启发式语言模型迈进了一步。 |
| 2025-10-21 | Seg the HAB: Language-Guided Geospatial Algae Bloom Reasoning and Segmentation | null | 气候变化正在加剧有害藻华(HAB)的发生,尤其是蓝藻,它们通过氧气耗尽、毒素释放以及海洋生物多样性紊乱来威胁水生生态系统和人类健康。传统监测方法,如人工水样采集,仍然劳动密集且在空间和时间覆盖范围上有限。遥感领域视觉-语言模型(VLM)的最新进展已显示出可扩展的AI驱动解决方案的潜力,但在图像推理和藻华严重程度量化方面仍存在挑战。在这项工作中,我们引入了藻类观测与分割(ALGOS),这是一个结合遥感图像理解与严重程度估计的有害藻华监测分割与推理系统。我们的方法整合了GeoSAM辅助的人工评估以精选高质量分割掩码,并使用NASA的蓝藻聚合人工标签(CAML)微调视觉语言模型进行严重程度预测。实验表明,ALGOS在分割和严重程度估计两方面都取得了鲁棒性能,为实用和自动化的蓝藻监测系统铺平了道路。 |
| 2025-10-21 | IF-VidCap: Can Video Caption Models Follow Instructions? | null | 尽管多模态大语言模型(MLLM)在视频字幕生成方面已展现出熟练度,但实际应用需要遵循特定用户指令的字幕,而非生成详尽、无限制的描述。然而,当前基准测试主要评估描述的全面性,而在很大程度上忽视了指令遵循能力。为了弥补这一差距,我们引入了IF-VidCap,一个用于评估可控视频字幕生成的新基准,包含1,400个高质量样本。与现有视频字幕生成或通用指令遵循基准不同,IF-VidCap采用了一个系统性框架,从两个维度评估字幕:格式正确性和内容正确性。我们对20多个知名模型的全面评估揭示了一个细致入微的局面:尽管专有模型持续占据主导地位,但性能差距正在缩小,顶级开源解决方案如今已接近与专有模型持平。此外,我们发现专门用于密集字幕生成的模型在复杂指令下表现不如通用型MLLM,这表明未来的工作应同时推进描述的丰富性和指令遵循的忠实度。 |
| 2025-10-21 | Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents | null | CLIP等对比视觉-语言模型通过学习对齐的图像-文本对,在广泛的多模态任务中展现出强大性能。然而,它们处理复杂、真实世界网络文档的能力仍然有限,尤其是在文本和图像交错、松散对齐或以视觉形式嵌入的场景中。为解决这些挑战,我们提出了以视觉为中心的对比学习(VC2L),这是一个统一框架,使用单一视觉Transformer对文本、图像及其组合进行建模。VC2L通过将所有输入(无论是文本、视觉还是组合)渲染为图像,完全在像素空间中操作,从而消除了对OCR、文本分词或模态融合策略的需求。为了捕获多模态网络文档中复杂的跨模态关系,VC2L采用片段级对比学习目标来对齐连续的多模态片段,利用文档固有的连贯性,而无需明确配对的图像-文本数据。为了评估这种方法的有效性,我们引入了三个检索基准:AnyCIR、SeqCIR和CSR,旨在分别评估跨模态检索、细粒度序列理解以及对未见数据的泛化能力。实验结果表明,VC2L在所提出的基准以及M-BEIR和MTEB等已建立的数据集上,与CLIP风格模型相比,取得了竞争性或卓越的性能。这些发现强调了多模态网络数据作为对比学习宝贵训练资源的潜力,并说明了统一的、以视觉为中心的方法在多模态表示学习中的可扩展性。代码和模型可在以下网址获取:https://github.com/showlab/VC2L。 |
| 2025-10-21 | UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation | link | 文本到图像(T2I)生成领域的最新进展强调了可靠基准的重要性,用于评估生成图像如何准确反映其文本提示的语义。然而,(1) 现有基准缺乏提示场景的多样性和多语言支持,这两者对于实际应用性至关重要;(2) 它们仅在主要维度上提供粗略评估,涵盖的子维度范围狭窄,并且在细粒度子维度评估方面存在不足。为解决这些局限性,我们引入了UniGenBench++,一个用于T2I生成的统一语义评估基准。具体而言,它包含600个提示,这些提示按层次结构组织,以确保覆盖范围和效率:(1) 涵盖多样化的真实世界场景,即5个主要提示主题和20个子主题;(2) 全面探查T2I模型在10个主要和27个次要评估标准上的语义一致性,每个提示评估多个测试点。为了严格评估模型对语言和提示长度变化的鲁棒性,我们为每个提示提供了英文和中文的短形式和长形式版本。利用闭源多模态大型语言模型(MLLM)Gemini-2.5-Pro的通用世界知识和细粒度图像理解能力,我们开发了一个有效的流程,用于可靠的基准构建和精简的模型评估。此外,为进一步促进社区使用,我们训练了一个鲁棒的评估模型,能够实现T2I模型输出的离线评估。通过对开源和闭源T2I模型的全面基准测试,我们系统地揭示了它们在各个方面的优势和劣势。 |
| 2025-10-21 | Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views | link | 尽管视觉-语言模型(VLM)的最新进展在广泛的多模态任务中取得了显著进步,但从有限视角理解三维空间关系仍然是一个重大挑战。先前的推理方法通常依赖于纯文本(例如,拓扑认知图)或二维视觉线索。然而,它们有限的表示能力阻碍了在需要三维空间想象力的特定任务中的性能。为解决这一局限性,我们提出了3DThinker,一个能够在推理时像人类一样有效利用图像中嵌入的丰富几何信息的框架。我们的框架首次在推理过程中无需任何三维先验输入即可实现三维心智构建,并且不依赖于显式标注的三维数据进行训练。具体而言,我们的训练包含两个阶段。首先,我们进行有监督训练,以对齐VLM在推理时生成的三维潜在表示与三维基础模型(例如,VGGT)的潜在表示。然后,我们仅基于结果信号优化整个推理轨迹,从而细化潜在的三维心智构建。在多个基准测试中进行的大量实验表明,3DThinker持续优于强基线模型,并为将三维表示统一到多模态推理中提供了一个新视角。我们的代码将发布于https://github.com/zhangquanchen/3DThinker。 |
| 2025-10-21 | VAR: Visual Attention Reasoning via Structured Search and Backtracking | null | 尽管多模态大语言模型(MLLMs)取得了进展,但其高幻觉倾向以及对脆弱线性推理过程的严重依赖阻碍了它们的发展,导致在复杂任务中表现不佳。为解决这些局限性,我们引入了视觉注意力推理(VAR),这是一个新颖的框架,它将基础推理重构为在推理轨迹空间上的结构化搜索。VAR将推理过程分解为两个关键阶段:可追溯证据锚定和基于搜索的思维链(CoT)生成,其中结合了用于自我纠正的回溯机制。该搜索由一个多方面奖励函数引导,该函数包含语义和几何自验证组件,对未忠实地基于视觉输入的输出进行惩罚。我们对我们的搜索策略进行了理论分析,验证了其以高概率找到正确解决方案的能力。实验结果表明,我们的7B模型VAR-7B在一套全面的幻觉和安全基准测试上创造了新的最先进水平,显著优于现有的开源模型,并展现出与领先的专有系统相匹敌的性能。 |
| 2025-10-21 | CUARewardBench: A Benchmark for Evaluating Reward Models on Computer-using Agent | null | 计算机使用智能体(CUAs)通过与操作系统和软件界面进行自然交互来实现任务完成。尽管基于脚本的验证器被广泛用于评估,但它们面临可扩展性有限和无法提供逐步评估的问题。奖励模型提供了有前景的替代方案,但它们在CUA评估上的有效性仍未得到充分探索。为弥补这一空白,我们提出了CUARewardBench,包含四项主要贡献:(1) 首个全面的CUA奖励基准:我们引入了首个用于评估CUA任务中结果奖励模型(ORM)和过程奖励模型(PRM)的基准,实现了轨迹级和步骤级的系统评估。(2) 多样化、实用且可靠的数据集:CUARewardBench包含来自10个软件类别和7种智能体架构的轨迹,这些轨迹具有不同的性能水平(成功率介于25.9%至50.8%)。所有轨迹均通过精心设计的协议进行专家标注,并进行严格的质量控制,以确保其可靠性和实用性。(3) 全面分析与见解:通过对7种视觉-语言模型和3种提示模板进行广泛实验,我们揭示了当前CUA奖励模型的关键局限性,包括视觉推理能力不足、知识缺陷,以及通用视觉-语言模型在奖励评估方面优于专用CUA模型。(4) 一致提示集成(UPE):基于我们全面分析的见解,我们提出了UPE,这是一种新颖的集成方法,通过严格的一致投票和战略性的提示模板配置,显著提高了奖励模型的可靠性。UPE在ORM上达到了89.8%的精度和93.3%的负预测值(NPV),在PRM上达到了81.7%的精度和85.1%的负预测值(NPV),显著优于单一视觉-语言模型和传统集成方法。 |
| 2025-10-16 | From Pixels to Words -- Towards Native Vision-Language Primitives at Scale | null | 原生视觉-语言模型(VLM)的体系,在不断发展的模型架构和训练范式塑造下,已成为典型模块化VLM日益增长的竞争者。然而,两朵挥之不去的阴云笼罩着其广泛的探索和推广:(-) 是什么基本限制使原生VLM与模块化VLM区别开来,以及这些障碍能在多大程度上被克服?(-) 如何使原生VLM的研究更易于获取和民主化,从而加速该领域的进展?在本文中,我们阐明了这些挑战,并概述了构建原生VLM的指导原则。具体而言,一个原生VLM基元应:(i) 在共享语义空间内有效对齐像素和词表示;(ii) 无缝整合以前分离的视觉和语言模块的优势;(iii) 内在地体现支持统一视觉-语言编码、对齐和推理的各种跨模态特性。因此,我们推出了NEO,这是一个从第一性原理构建的新颖原生VLM系列,能够在多样化的现实世界场景中与顶级模块化对应物媲美。仅使用3.9亿图像-文本示例,NEO便能从零开始高效发展视觉感知,同时缓解由我们精心设计的基元构建的密集且单一模型内部的视觉-语言冲突。我们将NEO定位为可扩展且强大的原生VLM的基石,并搭配一套丰富的可重用组件,以促进一个成本效益高且可扩展的生态系统。我们的代码和模型已公开发布于:https://github.com/EvolvingLMMs-Lab/NEO。 |
| 2025-10-16 | Learning an Image Editing Model without Image Editing Pairs | link | 最近的图像编辑模型在遵循自然语言编辑指令方面取得了令人印象深刻的成果,但它们依赖于使用大量输入-目标对数据集进行监督微调。这是一个关键瓶颈,因为此类自然存在的配对难以大规模收集。当前的权宜之计是使用利用现有模型零样本能力的合成训练对。然而,这可能会将预训练模型的伪影传播并放大到最终训练模型中。在这项工作中,我们提出了一种新的训练范式,完全消除了对配对数据的需求。我们的方法通过在训练过程中展开少步扩散模型并利用视觉-语言模型(VLM)的反馈来直接优化它。对于每个输入和编辑指令,VLM评估编辑是否符合指令并保留未更改的内容,从而为端到端优化提供直接梯度。为了确保视觉保真度,我们引入了分布匹配损失(DMD),它约束生成的图像保持在预训练模型学习到的图像流形内。我们在标准基准上评估了我们的方法,并进行了广泛的消融研究。在没有任何配对数据的情况下,我们的方法在少步设置下,性能与各种在大量监督配对数据上训练的图像编辑扩散模型相当。在给定相同VLM作为奖励模型的情况下,我们还优于Flow-GRPO等基于强化学习(RL)的技术。 |
| 2025-10-16 | RDD: Retrieval-Based Demonstration Decomposer for Planner Alignment in Long-Horizon Tasks | link | 为解决长周期任务,最近的分层视觉-语言-动作 (VLA) 框架采用基于视觉-语言模型 (VLM) 的规划器,将复杂的操纵任务分解成低级视觉运动策略能够轻松处理的更简单的子任务。通常,VLM 规划器会经过微调以学习如何分解目标任务。这种微调需要将目标任务演示通过人工标注或启发式规则分割成子任务。然而,启发式子任务可能与视觉运动策略的训练数据显著偏离,从而降低任务性能。为解决这些问题,我们提出了一种基于检索的演示分解器 (RDD),它通过将分解后的子任务区间的视觉特征与低级视觉运动策略训练数据中的视觉特征进行对齐,从而自动将演示分解成子任务。我们的方法在模拟和真实世界任务中均优于最先进的子任务分解器,证明了其在不同设置下的鲁棒性。代码和更多结果可在 rdd-neurips.github.io 获取。 |
| 2025-10-16 | MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning | link | 尽管大语言模型(LLMs)在文本推理方面表现出色,但在几何等本质上依赖视觉辅助的数学领域中却面临挑战。现有的视觉思维链(VCoT)方法常受限于僵化的外部工具,或未能生成复杂问题解决所需的高保真、策略性及时的图示。为了弥合这一鸿沟,我们引入了MathCanvas,这是一个旨在赋予统一的大型多模态模型(LMMs)针对数学问题的内在VCoT能力的全面框架。我们的方法包含两个阶段。首先,在视觉操作阶段,我们使用一个新颖的1520万对语料库预训练模型,该语料库包含1000万个文本描述到图示的对(MathCanvas-Imagen)和520万个分步编辑轨迹(MathCanvas-Edit),以使模型掌握图示的生成和编辑。其次,在策略性视觉辅助推理阶段,我们使用MathCanvas-Instruct(一个包含21.9万个交错视觉-文本推理路径的新数据集)微调模型,教导模型何时以及如何利用视觉辅助。为了促进严格的评估,我们引入了MathCanvas-Bench,这是一个包含3000个挑战性问题的基准,要求模型生成交错的视觉-文本解决方案。我们的模型BAGEL-Canvas在此框架下训练,在MathCanvas-Bench上相较于强大的LMM基线模型实现了86%的相对提升,并展示了对其他公开数学基准的出色泛化能力。我们的工作提供了一个完整的工具包——包括框架、数据集和基准——以解锁LMMs中复杂、类人的视觉辅助推理能力。项目页面:https://mathcanvas.github.io/ |
| 2025-10-16 | OmniMotion: Multimodal Motion Generation with Continuous Masked Autoregression | null | 全身多模态人体运动生成面临两大主要挑战:一是创建有效的运动生成机制,二是将文本、语音和音乐等各种模态整合到一个统一的框架中。与以往通常采用离散掩码建模或自回归建模的方法不同,我们开发了一种连续掩码自回归运动变换器,该变换器在考虑人体运动中的序列特性时执行因果注意力。在该变换器中,我们引入了门控线性注意力和RMSNorm模块,它们促使变换器关注关键动作并抑制由异常运动或多模态内异构分布引起的不稳定性。为了进一步增强运动生成和多模态泛化能力,我们采用DiT结构将来自变换器的条件扩散到目标。为融合不同模态,AdaLN和交叉注意力被用于注入文本、语音和音乐信号。实验结果表明,我们的框架在所有模态上均优于以往方法,包括文本到运动、语音到手势和音乐到舞蹈。我们的方法代码将公开。 |
| 2025-10-16 | DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation | null | 像英语这样的接触语言表现出丰富的地域变体,即方言,方言使用者在与生成模型交互时经常使用这些方言。然而,多模态生成模型在给定方言文本输入的情况下能否有效生成内容?在这项工作中,我们通过构建一个涵盖六种常见英语方言的新大规模基准来研究这个问题。我们与方言使用者合作,收集并验证了超过4200个独特的提示,并在17个图像和视频生成模型上进行了评估。我们的自动和人工评估结果表明,当提示中只使用一个方言词时,当前最先进的多模态生成模型表现出32.26%到48.17%的性能下降。常见的缓解方法,例如微调和提示重写,只能将方言性能提高很小的幅度(< 7%),同时可能导致标准美式英语(SAE)性能的显著下降。为此,我们设计了一种通用的基于编码器的多模态生成模型缓解策略。我们的方法教导模型识别新的方言特征,同时保持SAE性能。在Stable Diffusion 1.5等模型上的实验表明,我们的方法能够同时将五种方言的性能提升至与SAE持平(+34.4%),同时对SAE性能造成接近零的损失。 |
| 2025-10-16 | TRI-DEP: A Trimodal Comparative Study for Depression Detection Using Speech, Text, and EEG | null | 抑郁症是一种广泛存在的精神健康障碍,但其自动检测仍然具有挑战性。先前的工作探索了单模态和多模态方法,其中多模态系统通过利用互补信号展现出潜力。然而,现有研究在范围上存在局限性,缺乏对特征的系统比较,并且评估协议不一致。我们通过系统地探索脑电图(EEG)以及语音和文本的特征表示和建模策略来弥补这些不足。我们评估了手工特征与预训练嵌入,评估了不同神经网络编码器的有效性,比较了单模态、双模态和三模态配置,并分析了融合策略,特别关注了脑电图(EEG)的作用。我们采用了受试者独立的一致划分,以确保稳健且可复现的基准测试。我们的结果表明:(i) 脑电图、语音和文本模态的组合增强了多模态检测,(ii) 预训练嵌入优于手工特征,以及 (iii) 精心设计的三模态模型实现了最先进的性能。我们的工作为多模态抑郁症检测的未来研究奠定了基础。 |
| 2025-10-16 | MaskCaptioner : Learning to Jointly Segment and Caption Object Trajectories in Videos | null | 密集视频目标字幕生成 (DVOC) 是一项在视频中联合检测、跟踪和生成目标轨迹字幕的任务,需要理解时空细节并用自然语言描述它们的能力。由于任务的复杂性以及手动标注的高昂成本,以往的方法通常采用分离的训练策略,这可能导致次优的性能。为了解决这个问题,我们提出利用最先进的VLM生成关于时空局部化实体的字幕。通过使用我们合成的字幕(LVISCap和LV-VISCap)扩展LVIS和LV-VIS数据集,我们训练了MaskCaptioner,这是一个能够联合检测、分割、跟踪和生成目标轨迹字幕的端到端模型。此外,经过LVISCap和LV-VISCap上的预训练,MaskCaptioner在三个现有基准测试(VidSTG、VLN和BenSMOT)上取得了最先进的DVOC成果。数据集和代码可在 https://www.gabriel.fiastre.fr/maskcaptioner/ 获取。 |
| 2025-10-16 | Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection | null | 现有半监督视频异常检测 (VAD) 方法常常难以检测涉及对象交互的复杂异常,并且通常缺乏可解释性。为了克服这些局限性,我们提出了一种利用多模态大语言模型 (MLLMs) 的新颖VAD框架。与以往基于MLLM的方法在帧级别进行直接异常判断不同,我们的方法侧重于提取和解释随时间变化的对象活动和交互。通过使用不同时刻对象对的视觉输入查询一个MLLM,我们从正常视频中生成活动和交互的文本描述。这些文本描述作为视频中对象活动和交互的一种高层次表示。它们在测试时用于检测异常,通过将它们与在正常训练视频中发现的文本描述进行比较。我们的方法本质上提供了可解释性,并且可以与许多传统的VAD方法结合以进一步增强它们的可解释性。在基准数据集上进行的广泛实验表明,我们的方法不仅能有效检测复杂的基于交互的异常,而且在不含交互异常的数据集上也能达到最先进的性能。 |
| 2025-10-16 | You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction | null | 尽管多模态大语言模型(MLLMs)的兴起重新激发了对零样本视觉分类的兴趣,但评估自回归模型自由形式响应的问题仍然是一个持续存在的挑战。大多数现有工作专注于纯语言任务,或者没有考虑超过5个选项的多项选择题(MCQs),而这两者都是解决细粒度视觉分类(FGVC)任务的关键能力,因为在FGVC中选项数量可达数百到数千,且选项之间高度相关。此外,在这种高度多选的MCQ设置中,尚不清楚如何将大语言模型(LLM)的选项提取扩展到基于检索的问题,因为计算选项集上的概率在计算上是昂贵的。在这项工作中,我们研究了nlg2choice,这是一种简单的两阶段方法,它首先以最少的约束向多模态大语言模型(MLLM)提出任务的开放式问题,然后使用纯文本约束解码来预测最可能的选项。在检索设置中,我们通过一种早期停止方法计算约束响应选择该选项的概率,以显著提高吞吐量。我们的结果显示,在七个细粒度视觉数据集上,当在分类和检索方面进行评估时,性能有所提升,并表明这种性能在LLM用户可以通过自然语言实现任务的各种方式中都保持稳定。 |
| 2025-10-14 | DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search | null | 多模态大型语言模型(MLLMs)在实际应用中需要访问外部知识源,并且必须对动态且不断变化的现实世界信息保持响应,以解决信息查询和知识密集型用户查询。现有方法,例如检索增强生成(RAG)方法、搜索代理和配备搜索功能的MLLMs,常常面临死板的流程、过多的搜索调用以及构建不佳的搜索查询,这些问题导致效率低下和次优结果。为了解决这些局限性,我们提出了DeepMMSearch-R1,这是首个能够执行按需、多轮网络搜索,并为图像和文本搜索工具动态生成查询的多模态大型语言模型。具体而言,DeepMMSearch-R1可以基于输入图像的相关裁剪区域发起网络搜索,使图像搜索更有效,并且可以根据检索到的信息迭代调整文本搜索查询,从而实现自我反思和自我纠正。我们的方法依赖于一个两阶段训练流程:首先是冷启动监督微调阶段,随后是在线强化学习优化。为了训练,我们引入了DeepMMSearchVQA,这是一个通过自动化流程创建的新颖多模态VQA数据集,其中融合了来自网络搜索工具的现实世界信息。该数据集包含多样化的多跳查询,整合了文本和视觉信息,教导模型何时搜索、搜索什么、使用哪个搜索工具以及如何对检索到的信息进行推理。我们在一系列知识密集型基准测试中进行了广泛的实验,以证明我们方法的优越性。最后,我们分析了结果并提供了对推进多模态网络搜索具有宝贵价值的见解。 |
| 2025-10-14 | Detect Anything via Next Point Prediction | link | 目标检测长期以来由YOLO、DETR和Grounding DINO等传统的基于坐标回归的模型主导。尽管最近的努力试图利用多模态大语言模型(MLLMs)来解决这项任务,但它们面临着低召回率、重复预测、坐标未对齐等挑战。在这项工作中,我们弥合了这一差距,并提出了Rex-Omni,一个30亿参数规模的多模态大语言模型,它实现了最先进的目标感知性能。在COCO和LVIS等基准测试中,Rex-Omni在零样本设置下取得了与基于回归的模型(例如DINO、Grounding DINO)相当或超越的性能。这得益于三项关键设计:1) 任务表述:我们使用特殊token表示0到999的量化坐标,降低了模型的学习难度,并提高了坐标预测的token效率;2) 数据引擎:我们构建了多个数据引擎,以生成高质量的接地、指代和指向数据,为训练提供了语义丰富的监督;3) 训练流程:我们采用了两阶段训练过程,将2200万数据的监督微调与基于GRPO的强化后训练相结合。这种强化学习后训练利用了几何感知的奖励,有效弥合了离散到连续坐标预测的鸿沟,提高了边界框精度,并减轻了源于初始SFT阶段教师指导性质的不良行为,例如重复预测。除了传统的检测,Rex-Omni固有的语言理解能力使其具备了多功能能力,例如目标指代、指向、视觉提示、GUI接地、空间指代、光学字符识别(OCR)和关键点检测,所有这些能力都在专用基准上进行了系统评估。我们相信Rex-Omni为更通用、语言感知的视觉感知系统铺平了道路。 |
| 2025-10-14 | ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution | null | 现有的多模态大语言模型(MLLMs)由于图像输入引入了额外的视觉tokens,导致推理成本增加。在这项工作中,我们提出了一种新颖的训练算法——视觉一致性学习(ViCO),该算法使模型能够使用不同数量的视觉tokens来表示具有不同语义复杂度的图像。我们方法的核心思想是采用多个MLP连接器,每个连接器具有不同的图像压缩率,根据图像的语义复杂度对视觉tokens进行下采样。在训练过程中,我们最小化了在不同MLP连接器条件下产生的响应之间的KL散度。在推理时,我们引入了一个图像路由器,称为视觉分辨率路由器(ViR),它能自动为每个图像块选择适当的压缩率。与现有根据图像分辨率调整视觉tokens数量的动态高分辨率策略相比,我们的方法根据语义复杂度动态调整视觉tokens的数量。实验结果表明,我们的方法可以将视觉tokens的数量减少多达50%,同时保持模型的感知、推理和OCR能力。我们希望这项工作能促进更高效MLLMs的发展。代码和模型将发布以促进未来的研究。 |
| 2025-10-14 | UniFusion: Vision-Language Model as Unified Encoder in Image Generation | null | 尽管视觉生成领域最近取得了显著进展,但大多数现有架构仍然依赖于独立的图像和文本编码器。这种分离限制了扩散模型执行跨模态推理和知识迁移的能力。此前弥合这一鸿沟的尝试通常利用VLM的最后一层信息、采用多个视觉编码器,或联合训练用于文本和图像生成的大型统一模型,但这需要大量的计算资源和大规模数据,从而限制了其可访问性。我们提出了UniFusion,这是一种基于扩散的生成模型,以冻结的大型视觉-语言模型(VLM)为条件,该模型充当统一的多模态编码器。UniFusion的核心是层级注意力池化(LAP)机制,它从冻结VLM的文本和视觉token中提取高层语义和低层细节,以条件化扩散生成模型。我们证明LAP在用于生成的文本-图像对齐以及将视觉信息从VLM忠实地传输到扩散模型方面优于其他浅层融合架构,这对于编辑至关重要。我们提出了VLM赋能的灵活推理重写注入(VERIFI),它在模型内提示重写过程中,仅以VLM生成的文本token为条件来控制扩散Transformer(DiT)。VERIFI结合了条件分布的对齐与VLM的推理能力,从而增加了推理时的能力和灵活性。此外,在编辑任务上进行微调不仅改进了用于生成的文本-图像对齐,表明了跨模态知识迁移,而且还展现出巨大的泛化能力。我们的模型在单图像编辑上训练后,能够零样本泛化到多个图像引用,进一步证明了UniFusion统一编码器设计的合理性。 |
| 2025-10-14 | SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models | link | 近年来,统一多模态模型(UMMs)取得了显著进展,它们将视觉-语言生成和理解能力整合到单一框架中。然而,一个显著的差距在于,模型强大的视觉理解能力往往无法迁移到其视觉生成能力上。模型可能根据用户指令正确理解图像,却无法根据文本提示生成逼真的图像。这种现象直接提出了一个引人深思的问题:模型能否通过使用其理解模块来奖励其生成模块,从而实现自我提升?为了弥合这一差距并实现自我提升,我们引入了SRUM,这是一种自我奖励的后训练框架,可直接应用于现有各种设计的UMMs。SRUM创建一个反馈循环,其中模型的理解模块充当内部“评估器”,提供纠正信号以改进其生成模块,而无需额外的人工标注数据。为确保这种反馈是全面的,我们设计了一个全局-局部双重奖励系统。为了解决图像固有的结构复杂性,该系统提供了多尺度指导:全局奖励确保了整体视觉语义和布局的正确性,而局部奖励则细化了细粒度的对象级保真度。SRUM带来了强大的能力并展现出强大的泛化性,将T2I-CompBench上的性能从82.18提升到88.37,并将T2I-ReasonBench上的性能从43.82提升到46.75。总体而言,我们的工作建立了一个强大的新范式,使UMMs的理解模块能够通过自我奖励来指导和增强其自身的生成。 |
| 2025-10-14 | VQArt-Bench: A semantically rich VQA Benchmark for Art and Cultural Heritage | null | 多模态大语言模型(MLLMs)在视觉与语言联合任务中展现出显著能力。然而,现有的视觉问答(VQA)基准测试通常无法评估深度语义理解,尤其是在视觉艺术分析等复杂领域。这些问题局限于简单的句法结构和表面层面的属性,未能捕捉人类视觉探究的多样性和深度。这种局限性促使模型利用统计捷径而非进行视觉推理。为弥补这一空白,我们引入了VQArt-Bench,一个针对文化遗产领域的新型大规模VQA基准测试。该基准测试采用新颖的多智能体管道构建,其中专门的智能体协同生成细致入微、经过验证且语言多样的问题。由此产生的基准测试根据相关的视觉理解维度进行构建,旨在探究模型解释符号意义、叙事和复杂视觉关系的能力。我们对14个最先进的MLLMs在该基准测试上的评估揭示了当前模型的显著局限性,包括在简单计数任务中出人意料的弱点,以及专有模型与开源模型之间明显的性能差距。 |
| 2025-10-14 | HYPE: Hybrid Planning with Ego Proposal-Conditioned Predictions | null | 在复杂的城市环境中,安全且可解释的运动规划需要推理双向多智能体交互。这种推理需要估计潜在自车驾驶机动的成本。许多现有规划器通过基于采样的方法生成初始轨迹,并通过对学习到的未来环境状态预测进行优化来对其进行细化,这需要一个编码期望车辆行为的成本函数。设计这样的成本函数可能非常具有挑战性,尤其是当必须考虑广泛复杂的城市场景时。我们提出了HYPE:结合自车提案条件预测的混合规划,这是一个将来自学习到的提案模型的多模态轨迹提案作为启发式先验整合到蒙特卡洛树搜索(MCTS)细化中的规划器。为了建模双向交互,我们引入了一个自车条件占用预测模型,从而实现了一致的、场景感知的推理。我们的设计通过考虑提案驱动的指导,仅需要极简的基于网格的成本项,显著简化了细化中的成本函数设计。在nuPlan和DeepUrban这两个大规模真实世界基准上的评估表明,HYPE有效地实现了最先进的性能,尤其是在安全性和适应性方面。 |
| 2025-10-14 | Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception | null | 多模态信息的细粒度感知对于推动人机交互至关重要。随着音视频技术的最新进展,能够并行处理音频和视频信号的全能语言模型(OLMs)已成为实现更丰富理解和推理的一种有前景的范式。然而,它们捕获和描述细粒度细节的能力仍未得到充分探索。在这项工作中,我们从数据管道、模型和基准的角度对全能细致感知进行了系统而全面的调查。我们首先识别出当前OLMs中细节与幻觉之间固有的“共生”现象。为解决此问题,我们提出了Omni-Detective,这是一种集成工具调用的代理式数据生成管道,旨在自主生成高度详细但幻觉最少的多模态数据。基于Omni-Detective生成的数据,我们训练了两个字幕生成模型:用于仅音频细致感知的Audio-Captioner,以及用于音视频细致感知的Omni-Captioner。在级联评估协议下,Audio-Captioner在MMAU和MMAR上取得了所有开源模型中的最佳性能,超越了Gemini 2.5 Flash,并提供了与Gemini 2.5 Pro相当的性能。在现有细致字幕生成基准上,Omni-Captioner在VDC上创下了新的最先进水平,并在video-SALMONN 2测试集上实现了细节与幻觉之间的最佳权衡。鉴于缺乏全能细致感知的专用基准,我们设计了Omni-Cloze,这是一种新颖的完形填空式评估方法,用于细致的音频、视觉和音视频字幕生成,可确保稳定、高效和可靠的评估。实验结果和分析证明了Omni-Detective在生成高质量细致字幕方面的有效性,以及Omni-Cloze在评估此类细致字幕方面的优越性。 |
| 2025-10-14 | Beyond Seeing: Evaluating Multimodal LLMs on Tool-Enabled Image Perception, Transformation, and Reasoning | null | 多模态大语言模型(MLLMs)正越来越多地应用于现实世界场景,其中用户提供的图像通常不完美,需要主动的图像操作(例如裁剪、编辑或增强)以揭示显著的视觉线索。除了静态视觉感知之外,MLLMs还必须“与图像一起思考”:动态地转换视觉内容并将其与其他工具集成以解决复杂任务。然而,这种从将视觉视为被动上下文到可操作的认知工作空间的转变仍未得到充分探索。大多数现有基准仍然遵循“思考图像”范式,其中图像被视为静态输入。为了弥补这一空白,我们引入了IRIS(与图像和系统交互推理),旨在评估MLLMs在“与图像一起思考”范式下,在复杂的视觉-文本任务中进行感知、转换和推理的能力。IRIS包含1,204个具有挑战性的开放式视觉任务(603个单轮任务,601个多轮任务),涵盖五个不同领域,每个任务都配有详细的评分标准以实现系统评估。我们的评估表明,当前的MLLMs在需要视觉与通用工具有效集成的任务中表现不佳。即使是最强的模型(GPT-5-think)也仅达到18.68%的通过率。我们进一步观察到不同的工具使用行为,OpenAI模型从多样化的图像操作中获益,而Gemini-2.5-pro则没有显示出改进。通过引入第一个围绕“与图像一起思考”的基准,IRIS为推进MLLMs中的视觉智能提供了关键见解。 |
| 2025-10-14 | Reflection-Based Task Adaptation for Self-Improving VLA | null | 预训练视觉-语言-动作(VLA)模型代表着通用机器人领域的一大飞跃,然而,如何有效地将它们就地适应新颖的特定任务,仍然是一个重大障碍。尽管强化学习(RL)是实现这种适应性的一种有前景的途径,但其过程通常效率低下,阻碍了任务的快速掌握。我们引入了反思性自适应(Reflective Self-Adaptation),一个无需人工干预即可实现快速、自主任务适应的框架。我们的框架建立了一个自我改进循环,在此循环中,智能体从自身经验中学习,以增强策略和执行。我们框架的核心是一个双路径架构,它解决了完整的适应生命周期。首先,一个故障驱动的反思性强化学习(Failure-Driven Reflective RL)路径,通过利用VLM的因果推理能力,从故障分析中自动合成有针对性的密集奖励函数,从而实现快速学习。这提供了一个集中的学习信号,显著加速了策略探索。然而,优化此类代理奖励引入了“奖励欺骗”(reward hacking)的潜在风险,即智能体掌握了奖励函数但未能完成实际任务。为了抵消这种风险,我们的第二条路径,成功驱动的质量引导微调(Success-Driven Quality-Guided SFT),将策略建立在整体成功的基础上。它识别并选择性地模仿高质量的成功轨迹,确保智能体与最终任务目标保持一致。该路径通过一个条件课程机制得到强化,以辅助初始探索。我们在具有挑战性的操作任务中进行了实验。结果表明,我们的框架实现了更快的收敛,并与代表性基线相比,获得了更高的最终成功率。我们的工作提出了一种稳健的解决方案,用于创建能够高效、可靠地适应新环境的自我改进智能体。 |
| 2025-10-10 | StreamingVLM: Real-Time Understanding for Infinite Video Streams | link | 视觉语言模型(VLMs)可以为实时助手和自主智能体提供支持,但它们面临一个关键挑战:在不增加延迟和内存使用量的情况下,理解接近无限的视频流。对整个视频进行全注意力处理会导致二次方的计算成本,并在长视频上表现不佳。同时,简单的滑动窗口方法也存在缺陷,因为它们要么破坏连贯性,要么因冗余的重复计算而导致高延迟。在本文中,我们引入了StreamingVLM,一个旨在对无限视觉输入进行实时、稳定理解的模型。我们的方法是一个统一框架,将训练与流式推理对齐。在推理过程中,我们通过重用注意力汇聚点(attention sinks)的状态、一个短窗口的近期视觉令牌和一个长窗口的近期文本令牌来维护一个紧凑的KV缓存。这种流式处理能力是通过一个简单的监督微调(SFT)策略灌输的,该策略对短的、重叠的视频块应用全注意力,从而有效地模仿了推理时的注意力模式,而无需在过长的上下文中进行训练。为了进行评估,我们构建了Inf-Streams-Eval,这是一个新的基准,其中视频平均时长超过两小时,并且要求帧与文本之间进行密集的、每秒对齐。在Inf-Streams-Eval上,StreamingVLM对GPT-4O mini取得了66.18%的胜率,并在单个NVIDIA H100上以高达8 FPS的速度保持稳定、实时的性能。值得注意的是,我们的SFT策略还在没有任何针对VQA的微调的情况下增强了通用的VQA能力,将LongVideoBench上的性能提高了+4.30,将OVOBench Realtime上的性能提高了+5.96。代码可在https://github.com/mit-han-lab/streaming-vlm获取。 |
| 2025-10-10 | VITA-VLA: Efficiently Teaching Vision-Language Models to Act via Action Expert Distillation | null | 视觉-语言-动作(VLA)模型通过利用预训练视觉-语言模型(VLM)强大的感知能力,显著推动了机器人操作的发展。通过将动作模块集成到这些预训练模型中,VLA方法展现出更好的泛化能力。然而,从头开始训练它们成本高昂。在这项工作中,我们提出了一种简单而有效的基于蒸馏的框架,通过从预训练的小型动作模型转移知识,使VLM具备动作执行能力。我们的架构保留了原始VLM结构,仅添加了一个动作token和一个状态编码器以整合物理输入。为了蒸馏动作知识,我们采用了两阶段训练策略。首先,我们通过将VLM隐藏状态映射到小型动作模型的动作空间,执行轻量级对齐,从而有效重用其预训练的动作解码器并避免昂贵的预训练。其次,我们选择性地微调语言模型、状态编码器和动作模块,使系统能够整合多模态输入并生成精确的动作。具体来说,动作token为VLM提供了一个预测未来动作的直接句柄,而状态编码器则允许模型整合仅凭视觉无法捕捉到的机器人动力学。这种设计相较于从头开始训练大型VLA模型,实现了显著的效率提升。与现有最先进方法相比,我们的方法在LIBERO上取得了97.3%的平均成功率(提升11.8%),在LIBERO-LONG上取得了93.5%(提升24.5%)。在涵盖五项操作任务的实际世界实验中,我们的方法始终优于教师模型,达到了82.0%的成功率(提升17%),这表明动作蒸馏有效使VLM能够生成精确的动作,同时大幅降低了训练成本。 |
| 2025-10-10 | SpaceVista: All-Scale Visual Spatial Reasoning from mm to km | link | 随着当前空间推理探索的激增,研究人员在理解室内场景方面取得了显著进展,但在机器人和自动驾驶等多样化应用中仍面临挑战。本文旨在通过解决两个关键挑战来推进多样化场景下的全尺度空间推理:1) 数据集构建过度依赖室内3D扫描和劳动密集型手动标注;2) 缺乏有效的全尺度场景建模,这常导致对单个场景的过拟合。在本文中,我们引入了一个整体解决方案,该方案集成了结构化空间推理知识系统、尺度感知建模和渐进式训练范式,据我们所知,这是首次尝试拓宽多模态大语言模型(MLLMs)的全尺度空间智能。利用任务特定、专家驱动的自动化流程,我们在5个空间尺度上收集了超过38K的视频场景,以创建SpaceVista-1M,这是一个包含约1M空间问答对、涵盖19种不同任务类型的数据集。尽管专家模型可以注入有用的领域知识,但它们在评估方面不可靠。然后,我们通过手动录制、检索和组装视频数据,构建了一个具有精确标注的全尺度基准。然而,由于潜在的知识冲突,使用SpaceVista-1M进行朴素训练常导致次优结果。因此,我们引入了SpaceVista-7B,这是一个接受语义之外的密集输入的空间推理模型,并使用尺度作为尺度感知专家和渐进式奖励的锚点。最后,在包括我们的SpaceVista-Bench在内的5个基准上的广泛评估表明了有竞争力的性能,展示了在所有尺度和场景下的强大泛化能力。我们的数据集、模型和基准将发布在https://peiwensun2000.github.io/mm2km。 |
| 2025-10-10 | Vision Language Models: A Survey of 26K Papers | null | 我们对2023-2025年CVPR、ICLR和NeurIPS的26,104篇录用论文进行了透明、可复现的研究趋势测量。我们对论文标题和摘要进行规范化和词组保护处理,并与手工构建的词典进行匹配,以分配多达35个主题标签,并挖掘有关任务、架构、训练方案、目标函数、数据集以及共同提及模态的细粒度线索。分析量化了三个宏观转变:(1) 多模态视觉-语言-大型语言模型(LLM)工作的急剧增长,这类工作越来越多地将经典感知重构为指令遵循和多步推理;(2) 生成方法稳步扩展,其中扩散模型研究集中在可控性、蒸馏和速度方面;(3) 3D和视频活动的持续活跃,其构成表示从NeRFs转向高斯泼溅,并越来越重视以人-和智能体-为中心的理解。在视觉-语言模型(VLM)内部,提示、适配器、LoRA等参数高效适应技术以及轻量级视觉-语言桥接占据主导地位;训练实践从从头构建编码器转向指令微调和微调强大的骨干网络;对比学习目标相对于交叉熵/排序和蒸馏有所减少。跨会议比较显示,CVPR在3D领域影响力更强,ICLR拥有最高的VLM份额,而效率或鲁棒性等可靠性主题则在各领域中扩散。我们发布了词典和方法,以方便审计和扩展。局限性包括词典召回率和仅限于摘要的范围,但纵向信号在不同会议和年份之间保持一致。 |
| 2025-10-10 | AutoPR: Let's Automate Your Academic Promotion! | link | 随着同行评审研究数量的激增,学者们越来越依赖社交平台进行发现,而作者则投入大量精力推广其工作以确保可见性和被引用。为了简化这一过程并减少对人力投入的依赖,我们引入了自动推广(AutoPR),这是一项新颖的任务,旨在将研究论文转化为准确、引人入胜且及时的公共内容。为了实现严格的评估,我们发布了PRBench,这是一个多模态基准,将512篇同行评审文章与高质量推广帖文关联起来,从三个维度评估系统:忠实度(准确性和语气)、参与度(受众定位和吸引力)和对齐度(时间选择和渠道优化)。我们还引入了PRAgent,一个多智能体框架,它分三阶段自动化AutoPR:多模态准备下的内容提取、协作合成以生成精炼输出,以及平台特定适应以优化规范、语气和标签,从而实现最大覆盖。在PRBench上与直接LLM(大型语言模型)管线相比,PRAgent展现了显著的改进,包括总观看时长增加604%、点赞数增长438%,以及整体参与度至少提升2.9倍。消融研究表明,平台建模和定向推广对这些提升贡献最大。我们的结果将AutoPR定位为一个可处理、可衡量的研究问题,并为可扩展、有影响力的自动化学术交流提供了路线图。 |
| 2025-10-10 | MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval | null | 我们引入了MRMR,这是首个需要密集推理的专家级多学科多模态检索基准。MRMR包含1,502个查询,涵盖23个领域,其正向文档均经过人类专家仔细验证。与之前的基准相比,MRMR引入了三个关键进展。首先,它在不同专业领域对检索系统提出挑战,从而实现跨领域的细粒度模型比较。其次,查询是推理密集型的,图像需要更深层次的解读,例如诊断显微镜切片。我们进一步引入了矛盾检索,这是一项要求模型识别冲突概念的新颖任务。最后,查询和文档被构建为图像-文本交错序列。与早期仅限于单张图像或单模态文档的基准不同,MRMR提供了一个具有多图像查询和混合模态语料库文档的现实设置。我们在MRMR上对4类多模态检索系统和14个前沿模型进行了广泛评估。结合大型语言模型生成的图像描述的文本嵌入模型Qwen3-Embedding取得了最高性能,凸显了多模态检索模型仍有巨大的改进空间。尽管最新的多模态模型(例如Ops-MM-Embedding)在专家领域查询上表现出竞争力,但在推理密集型任务上表现不足。我们相信MRMR为在更现实和更具挑战性的场景中推进多模态检索铺平了道路。 |
| 2025-10-10 | PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs | link | 使用、理解和创造工具的能力是人类智能的标志,使人类能够与物理世界进行复杂的互动。任何通用智能体若要实现真正的多功能性,也必须掌握这些基本技能。尽管现代多模态大语言模型 (MLLM) 在具身智能和下游视觉-语言-动作 (VLA) 模型中利用其广泛的常识进行高层规划,但它们对物理工具的真实理解程度仍未被量化。为了弥合这一差距,我们提出了 PhysToolBench,这是首个专门用于评估 MLLM 对物理工具理解能力的基准。我们的基准被构建为一个包含超过 1,000 对图像-文本对的视觉问答 (VQA) 数据集。它评估了三个不同难度级别的能力:(1) 工具识别:要求识别工具的主要功能。(2) 工具理解:测试掌握工具操作基本原理的能力。(3) 工具创造:挑战模型在常规选项不可用时,利用周围物体制造新工具。我们对 32 种 MLLM(涵盖了专有模型、开源模型、专用具身模型以及 VLA 中的骨干模型)进行的全面评估揭示了它们在工具理解方面存在的显著缺陷。此外,我们提供了深入分析并提出了初步解决方案。代码和数据集已公开可用。 |
| 2025-10-10 | Unsupervised full-field Bayesian inference of orthotropic hyperelasticity from a single biaxial test: a myocardial case study | null | 在传统的均质组织测试中,充分捕捉这种行为需要激发多种变形模式,即组合三轴剪切测试和双轴拉伸测试。本质上,这种多模式实验方案需要多个组织样本和大量的样本操作。内在的样本间变异性和操作引起的组织损伤可能会对逆向识别的组织行为产生不利影响。在这项工作中,我们旨在通过将注意力集中在参数估计问题中异质变形剖面的使用来弥补这一空白。更具体地说,我们改进了EUCLID(一种用于自动发现本构模型的无监督方法),以利用贝叶斯推断方法和三维连续体单元,对高度非线性、正交各向异性本构模型进行参数识别。我们展示了它在不同噪声水平下,从单一异质双轴拉伸测试中量化推断合成心肌组织薄片材料模型参数的强大能力。该方法与真值模拟以及相应的可信区间表现出良好的一致性。我们的工作突出了从单一双轴拉伸测试中表征高度非线性、正交各向异性材料模型并进行不确定性量化的潜力。 |
| 2025-10-10 | Multimodal Policy Internalization for Conversational Agents | link | ChatGPT和Alexa+等现代对话代理依赖于指定元数据、响应风格和工具使用规则的预定义策略。随着这些基于大型语言模型的系统扩展以支持多样化的业务和用户查询,此类策略(通常以上下文提示的形式实现)正变得日益复杂和冗长,使得忠实遵循变得困难并带来了高昂的固定计算成本。随着多模态代理的兴起,管理视觉和多模态行为的策略至关重要但仍未得到充分研究。先前的提示压缩工作主要缩短任务模板和示例,而现有的策略对齐研究仅关注基于文本的安全规则。我们引入了多模态策略内化(MPI),这是一项新任务,旨在将推理密集型多模态策略内化到模型参数中,从而在推理时无需包含策略即可实现更强的策略遵循能力。MPI带来了独特的数据和算法挑战。我们构建了两个数据集,涵盖合成和真实世界的决策制定与工具使用任务,并提出了TriMPI,一个三阶段训练框架。TriMPI首先通过持续预训练注入策略知识,接着执行有监督微调,最后应用PolicyRollout,这是一种GRPO风格的强化学习扩展,通过策略感知响应来增强rollout,以实现有根据的探索。TriMPI在端到端准确性、泛化能力和抗遗忘性方面取得了显著提升。作为多模态策略内化领域的首项工作,我们提供了数据集、训练方案和全面的评估,以促进未来的研究。项目页面:https://mikewangwzhl.github.io/TriMPI。 |
| 2025-10-10 | D-TPT: Dimensional Entropy Maximization for Calibrating Test-Time Prompt Tuning in Vision-Language Models | null | 测试时适应范式通过对源模型产生的未标记目标数据进行即时适应,为域偏移提供了灵活性。视觉-语言模型(VLMs)利用其泛化能力处理多样化的下游任务,而测试时提示调优已成为适应VLMs的一个突出解决方案。在这项工作中,我们探索了对比式视觉-语言模型,并识别出由跨模态的单一主导特征维度引起的模态鸿沟。我们观察到文本和图像模态中的主导维度均表现出高预测敏感性,并且限制其影响可以改善校准误差。基于这一洞察,我们提出了维度熵最大化方法,该方法通过将文本特征的分布规范化趋向均匀性,以减轻主导维度的依赖性。我们的方法缓解了测试时提示调优中校准性能的下降,为增强视觉-语言模型在实际部署场景中的可靠性提供了一个简单而有效的解决方案。 |
| 2025-10-09 | MATRIX: Multimodal Agent Tuning for Robust Tool-Use Reasoning | null | 视觉语言模型(VLMs)正越来越多地被部署为控制器,能够访问外部工具进行复杂推理和决策,然而,其有效性仍受限于高质量多模态轨迹的稀缺性以及手动标注的成本。我们通过一个以视觉为中心的智能体微调框架来解决这一挑战,该框架自动合成多模态轨迹,生成分步偏好对,并训练一个VLM控制器以实现稳健的工具使用推理。我们的管道首先构建了M-TRACE,一个包含2.85万个多模态任务和17.7万条经过验证轨迹的大规模数据集,从而实现基于模仿的轨迹微调。在此基础上,我们开发了MATRIX智能体,一个在M-TRACE上进行微调的控制器,用于分步工具推理。为实现更精细的对齐,我们进一步引入了Pref-X,一组包含1.1万个自动生成的偏好对,并在此基础上通过分步偏好学习优化MATRIX。在Agent-X、GTA和GAIA这三个基准测试中,MATRIX持续超越开源和闭源VLM,展示了可扩展且有效的多模态工具使用能力。我们的数据和代码可在https://github.com/mbzuai-oryx/MATRIX获取。 |
| 2025-10-09 | NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints | null | 组合式训练一直是现有多模态大语言模型(MLLM)中事实上的范式,其中预训练视觉编码器通过连续多模态预训练与预训练大语言模型连接。然而,由于训练分离,这种范式的多模态扩展特性仍然难以探索。在本文中,我们关注以端到端方式对 MLLM 进行原生训练,并在实际设置(即数据约束)下系统地研究其设计空间和扩展特性。通过仔细研究 MLLM 中的各种选择,我们获得了能够最佳平衡性能和训练成本的最优元架构。之后,我们进一步探索了原生 MLLM 的扩展特性,并指出了视觉编码器和 LLM 之间正相关的扩展关系。基于这些发现,我们提出了一个名为 NaViL 的原生 MLLM,并结合了一个简单且经济高效的方案。在 14 个多模态基准测试上的实验结果证实了 NaViL 相对于现有 MLLM 具有竞争力的性能。除此之外,我们的发现和结果为未来原生 MLLM 的研究提供了深入的见解。 |
| 2025-10-09 | How to Teach Large Multimodal Models New Skills | link | 我们如何在不抹除其先前能力的情况下,教授大型多模态模型 (LMMs) 新技能?我们研究了在五种目标技能上进行的序贯微调,同时监测了跨越三种模型家族的八个保留基准上的通用能力。我们观察到,在窄范围微调后,保留任务上出现的“遗忘”可以在后期阶段部分恢复。我们将这种行为归因于输出词元分布中可测量的偏移,这通过一个与遗忘共同变化的简单计数偏差探测器体现出来。受此启发,我们确定了两种简单、稳健的微调方案,它们在强力学习的同时限制了漂移:(i) 仅更新自注意力投影层,以及 (ii) 仅更新多层感知机 (MLP) 的门控和向上投影 (Gate&Up),同时冻结向下投影 (Down projection)。跨模型和任务,这些选择带来了强大的目标增益,同时在很大程度上保留了保留性能。代码可在 https://github.com/jessemelpolio/LMM_CL 获取。 |
| 2025-10-09 | SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models | null | 大规模多模态模型(LMMs)在各种能力上取得了显著进展;然而,科学领域中复杂的视频推理仍然是一个重要且充满挑战的前沿。当前的视频基准主要针对高度依赖感知/识别的通用场景,而推理任务相对简单,这导致了饱和,从而未能有效评估先进的多模态认知技能。为了弥补这一关键空白,我们引入了SciVideoBench,一个专门用于评估科学背景下先进视频推理能力的严格基准。SciVideoBench包含1000个精心制作的多项选择题,这些问题来源于前沿的科学实验视频,涵盖超过25个专业学术领域,并经过半自动系统验证。每个问题都要求精深的领域特定知识、精准的时空感知和复杂的逻辑推理,有效地挑战了模型的更高阶认知能力。我们的评估突出显示了最先进的专有和开源LMMs(包括Gemini 2.5 Pro和Qwen2.5-VL)中存在显著的性能缺陷,这表明在视频推理能力方面仍有巨大的进步空间。对推理复杂性和视觉基础等关键因素的详细分析,为LMMs的未来发展提供了宝贵的见解和明确的方向,从而推动真正有能力的多模态AI合作科学家的演变。我们希望SciVideoBench能够符合社区的兴趣,并帮助推动前沿AI在科学前沿领域的进步和应用。 |
| 2025-10-09 | MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization | link | 尽管当前多模态大语言模型(MLLMs)已在数学和逻辑等推理任务中展现出熟练的能力,但它们在长链式反思推理方面的能力(这是解决复杂现实世界问题的先决条件)仍未得到充分探索。在这项工作中,我们首先进行了一项广泛的实证研究以评估这种能力。利用精心设计的数据合成引擎,我们构建了MM-HELIX,这是一个包含1,260个样本的多模态基准,涵盖42个需要迭代思考和回溯的挑战性合成任务。在此基准上的实证结果表明,现有MLLMs在长链式反思推理方面存在显著的性能不足。为解决这一局限性,我们生成了后训练数据,并进一步探索了利用这些数据的学习范式。我们首先开发了逐步启发式响应生成流程,以创建MM-HELIX-100K,这是一个包含10万条高质量反思推理轨迹的大规模数据集,用于指令微调阶段。考虑到标准强化学习在复杂任务上因稀疏的奖励信号以及在监督微调后出现的灾难性遗忘而表现不佳,我们提出了自适应混合策略优化(AHPO),这是一种新颖的训练策略,它将离线监督和在线优化动态统一到一个阶段中。这种策略使模型能够在奖励稀疏时从专家数据中学习,并在熟练后进行独立探索。将其应用于Qwen2.5-VL-7B基线模型时,我们的方法在MM-HELIX基准上取得了+18.6%的准确率提升,并在一般数学和逻辑任务上展现出强大的泛化能力,平均性能提升了+5.7%。我们的工作表明,MLLMs中的反思推理可以被有效地学习和泛化,为开发更强大的MLLMs铺平了道路。 |
| 2025-10-09 | SpatialLadder: Progressive Training for Spatial Reasoning in Vision-Language Models | link | 空间推理仍然是视觉-语言模型(VLM)面临的一个基本挑战,尽管近期有所进展,但当前方法仍难以实现鲁棒性能。我们发现这一局限性源于一个关键空白:现有方法试图直接学习空间推理,而未建立感知和理解的层次化基础。为解决这一挑战,我们提出了一种逐步构建空间智能的全面方法论。我们引入了SpatialLadder-26k,这是一个包含26,610个样本的多模态数据集,涵盖目标定位、单图像、多视角和视频空间推理任务,该数据集通过标准化流程构建,确保了跨模态的系统性覆盖。基于该数据集,我们设计了一个三阶段渐进式训练框架:(1) 通过目标定位建立空间感知,(2) 通过多维空间任务发展空间理解,(3) 通过带有可验证奖励的强化学习强化复杂推理。这种方法产生了SpatialLadder,这是一个30亿参数模型,在空间推理基准测试中取得了最先进的性能,比基础模型平均提升23.4%,超过GPT-4o 20.8%,并超过Gemini-2.0-Flash 10.1%。值得注意的是,SpatialLadder在域外基准测试中保持了强大的泛化能力,提升了7.2%,这证明了从感知到推理的渐进式训练对于鲁棒的空间智能至关重要。 |
| 2025-10-09 | MoA-VR: A Mixture-of-Agents System Towards All-in-One Video Restoration | link | 真实世界视频由于多样的采集和传输条件,常遭受复杂的退化,例如噪声、压缩伪影和低光照失真。现有恢复方法通常需要专业人员手动选择专用模型,或依赖于难以泛化到不同退化类型的单一架构。受专家经验启发,我们提出了MoA-VR,这是首个智能体混合视频恢复系统,通过三个协调智能体(退化识别、路由与恢复、恢复质量评估)模仿人类专业人员的推理和处理过程。具体而言,我们构建了一个大规模高分辨率视频退化识别基准,并建立了一个由视觉-语言模型(VLM)驱动的退化识别器。我们进一步引入了一个由大语言模型(LLM)驱动的自适应路由器,该路由器通过观察工具使用模式自主学习有效的恢复策略。为了评估中间和最终处理的视频质量,我们构建了恢复视频质量(Res-VQ)数据集,并设计了一个专为恢复任务定制的基于VLM的视频质量评估(VQA)模型。大量实验表明,MoA-VR能有效处理多样和复合退化,在客观指标和感知质量方面持续优于现有基线。这些结果突出了在通用视频恢复系统中整合多模态智能和模块化推理的潜力。 |
| 2025-10-09 | Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models | null | 传统多模态学习器为诸如视觉问答等任务寻找统一表示,但严重依赖成对数据集。然而,一个被忽视但却可能很有潜力的问题是:能否利用辅助的未成对多模态数据直接增强目标模态中的表示学习?我们引入了UML(Unpaired Multimodal Learner,未成对多模态学习器),这是一种模态无关的训练范式,其中单一模型交替处理来自不同模态的输入,并在它们之间共享参数。这种设计利用了不同模态是共享底层现实的投影这一假设,使模型能够从跨模态结构中受益,而无需明确的成对数据。理论上,在线性数据生成假设下,我们表明未成对的辅助数据可以产生比单模态训练对数据生成过程严格更具信息量的表示。经验上,我们表明使用来自辅助模态(例如文本、音频或图像)的未成对数据,可以持续提高跨越不同单模态目标(例如图像和音频)的下游性能。我们的项目页面:https://unpaired-multimodal.github.io/ |
| 2025-10-09 | InstructX: Towards Unified Visual Editing with MLLM Guidance | null | 随着多模态大语言模型(MLLMs)在视觉理解和推理方面展现出强大能力,人们对利用它们提升扩散模型编辑性能的兴趣日益增长。尽管取得了快速进展,但大多数研究缺乏对MLLM设计选择的深入分析。此外,MLLMs与扩散模型的集成在某些困难任务(如视频编辑)中仍是一个开放性挑战。在本文中,我们提出了InstructX,一个用于图像和视频编辑的统一框架。具体而言,我们对集成MLLMs和扩散模型以实现指令驱动的跨多样任务编辑进行了全面研究。在此研究的基础上,我们分析了统一建模中图像和视频之间的协作与区别。(1) 我们展示了在图像数据上进行训练可以在没有明确监督的情况下产生涌现的视频编辑能力,从而缓解了稀缺视频训练数据带来的限制。(2) 通过整合模态特定的MLLM特征,我们的方法有效地将图像和视频编辑任务统一到一个单一模型中。大量实验表明,我们的方法可以处理广泛的图像和视频编辑任务,并取得了最先进的性能。 |
| 2025-10-09 | The Visual Iconicity Challenge: Evaluating Vision-Language Models on Sign Language Form-Meaning Mapping | null | 象似性,即语言形式与意义之间的相似性,在手语中普遍存在,为视觉基础提供了一个天然的试验平台。对于视觉-语言模型(VLM)而言,挑战在于从动态的人体动作而非静态上下文中恢复这些基本映射。我们引入了“视觉象似性挑战赛”,这是一个新颖的基于视频的基准,它调整了心理语言学测量方法,用于评估VLM在三个任务上的表现:(i) 语音手语形式预测(例如,手形、位置),(ii) 透明度(从视觉形式推断意义),以及(iii) 分级象似性评级。我们在零样本和少样本设置下,使用荷兰手语评估了13个最先进的VLM,并将其与人类基线进行比较。在语音形式预测方面,VLM能够恢复一些手形和位置细节,但仍低于人类表现;在透明度方面,它们远低于人类基线;并且只有顶级模型与人类的象似性评级适度相关。有趣的是,具有更强语音形式预测能力的模型与人类象似性判断的相关性更好,这表明它们对视觉基础结构具有共同的敏感性。我们的发现验证了这些诊断任务,并启发了以人为中心的信号和具身学习方法,以用于建模象似性并改善多模态模型中的视觉基础。 |
| 2025-10-07 | EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark | null | 现有的大多数第一人称视角理解基准主要关注白天场景,却忽视了实际应用中不可避免的低光照条件。为了弥补这一空白,我们提出了EgoNight,这是首个针对夜间第一人称视角的综合基准,以视觉问答(VQA)作为核心任务。EgoNight的一个关键特征是引入了昼夜对齐视频,这些视频利用白天数据提高了夜间标注质量,并揭示了不同光照条件之间明显的性能差距。为实现这一目标,我们收集了Blender渲染的合成视频和真实世界录像,确保场景和动作在视觉上和时间上对齐。利用这些配对视频,我们构建了EgoNight-VQA,它由一个新颖的昼间增强夜间自动标注引擎支持,并通过大量人工验证进行了完善。每个问答对都经过标注员的二次检查以确保可靠性。EgoNight-VQA总计包含3658个问答对,涵盖90个视频和12种不同的问答类型,耗费超过300小时的人工工作。对最先进多模态大语言模型(MLLMs)的评估揭示了从白天到夜晚迁移时性能的显著下降,这强调了在低光照条件下进行推理的挑战。除了VQA,EgoNight还引入了两项辅助任务:昼夜对应关系检索和夜间第一人称深度估计,以进一步探索现有模型的边界。我们相信EgoNight-VQA为推动应用驱动的第一人称视角研究以及开发能够在不同光照领域泛化的模型提供了坚实的基础。所有数据和代码将在论文接收后公开。 |
| 2025-10-07 | Bimanual 3D Hand Motion and Articulation Forecasting in Everyday Images | link | 我们解决了在日常场景中从单张图像预测双手3D手部运动与姿态的问题。为了解决多样化场景中3D手部标注不足的问题,我们设计了一个标注流程,该流程包含一个扩散模型,用于将2D手部关键点序列提升为4D手部运动。对于预测模型,我们采用了一种扩散损失,以解释手部运动分布中的多模态性。在6个数据集上进行的广泛实验表明,相较于最佳基线模型,在具有推断标签的多样化数据上进行训练具有优势(14%的提升),并且我们的提升(42%更好)和预测(16.4%的增益)模型是有效的,尤其是在对日常图像的零样本泛化能力方面。 |
| 2025-10-07 | Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation | null | 生成式医疗模型在模态特异性场景中受限,这阻碍了来自影像、病理和临床记录的互补证据的整合。这种碎片化限制了它们发展成为能够在生物医学数据全谱范围内学习和推理的基础模型。我们提出了MeDiM,这是首个医疗离散扩散模型,它无需模态特异性组件即可学习跨模态的共享分布。MeDiM统一了多种生成任务:在图像和文本之间进行翻译,并响应提示联合生成跨领域的图像-报告对。MeDiM基于离散扩散框架构建,通过共享概率空间弥合了视觉和语言表示。为了实现统一和灵活的医疗生成,我们采用多模态大语言模型(MLLM)作为扩散骨干,利用其先验知识和跨模态推理能力。我们引入了两个关键设计:(1)移除因果注意力掩码以实现双向上下文,以及(2)注入连续时间步嵌入以增强扩散感知。实验表明MeDiM实现了高保真医疗生成(在MIMIC-CXR上FID为16.60,在PathGen上FID为24.19)和准确的报告生成(METEOR分别为0.2650和0.2580)。联合生成的图像-报告对进一步提升了下游性能(BLEU-1提高6.43%,BLEU-2提高18.57%,BLEU-3提高31.58%,METEOR提高4.80%),表明MeDiM支持连贯且具有临床依据的多模态输出。 |
| 2025-10-07 | Multimodal Feature Prototype Learning for Interpretable and Discriminative Cancer Survival Prediction | null | 生存分析在临床决策中发挥着至关重要的作用。然而,当前使用的模型往往难以解释,这降低了它们在临床环境中的实用性。原型学习提供了一个潜在的解决方案,但传统方法侧重于局部相似性和静态匹配,忽略了更广泛的肿瘤背景,并缺乏与基因组数据的强大语义对齐。为了克服这些问题,我们引入了一种创新的基于原型的多模态框架FeatProto,旨在通过解决病理学中当前原型学习方法学的重大局限性来增强癌症生存预测。我们的框架建立了一个统一的特征原型空间,该空间将全玻片图像(WSI)的全局和局部特征与基因组图谱相结合。这种整合促进了可追溯和可解释的决策制定过程。我们的方法包括三项主要创新:(1) 一种鲁棒的表型表示,它将关键斑块与全局上下文融合,并与基因组数据协调以最小化局部偏差。(2) 一种指数原型更新策略(EMA ProtoUp),它维持稳定的跨模态关联,并采用漂移机制使原型灵活适应肿瘤异质性。(3) 一种分层原型匹配方案,旨在捕捉全局中心性、局部典型性和群体水平趋势,从而完善原型推断。对四个公开可用的癌症数据集进行的全面评估表明,我们的方法在准确性和互操作性方面均超越了当前领先的单模态和多模态生存预测技术,为关键医疗应用的原型学习提供了新视角。我们的源代码可在https://github.com/JSLiam94/FeatProto获取。 |
| 2025-10-07 | When Thinking Drifts: Evidential Grounding for Robust Video Reasoning | null | 视频推理,即使机器能够通过多步逻辑从动态视觉内容中进行推理的任务,对于高级人工智能至关重要。尽管思维链(CoT)机制已增强了基于文本任务中的推理能力,但其在视频理解中的应用仍未得到充分探索。本文进行了一项系统分析,揭示了CoT在视频推理中往往会降低性能,产生冗长但具有误导性的内部独白,并导致视觉细节的幻觉和对正确直觉的覆盖——我们称此现象为“视觉思维漂移”。我们通过贝叶斯视角解释这种漂移,认为CoT轨迹往往偏离实际视觉证据,转而放大内部偏见或语言先验,导致模型更倾向于编造故事而非进行基于证据的推理。为了解决这个问题,我们引入了视觉证据奖励(VER),这是一种新颖的强化学习框架,它明确奖励生成可验证地基于视觉证据的推理轨迹。在10个不同的视频理解基准上进行的全面评估表明,我们的Video-VER始终能取得顶尖性能。我们的工作揭示了以视频为中心的推理所面临的独特挑战,并鼓励开发能够稳健地将其推理建立在视觉证据之上的AI——这对于大型多模态模型而言,不仅意味着“先思考再回答”,更意味着“边看边思考”。 |
| 2025-10-07 | Reasoning under Vision: Understanding Visual-Spatial Cognition in Vision-Language Models for CAPTCHA | null | 验证码(CAPTCHA)最初旨在区分人类和机器人,现已演变为一个真实世界的基准,用于评估视觉语言模型(VLMs)的空间推理能力。在这项工作中,我们首先展示了循序渐进的推理对于视觉语言模型(VLMs)解决代表高难度空间推理任务的验证码至关重要,并且当前的商业视觉语言模型在此类推理方面仍然面临困难。具体而言,我们观察到大多数商业视觉语言模型(例如Gemini、Claude、GPT等)未能有效解决验证码,因此准确率较低(约21.9%)。然而,我们的发现表明,在生成最终坐标之前要求模型执行循序渐进的推理,可以显著提高其解决准确率,凸显了这一差距的严重性。为了系统地研究这个问题,我们引入了CAPTCHA-X,这是首个包含推理的真实世界验证码基准,涵盖七类验证码(例如五子棋、hCaptcha等),并提供了循序渐进的动作解决方案和基础标注。我们进一步定义了五个面向推理的指标,能够对模型的推理能力进行全面评估。为了验证推理的有效性,我们还提出了一个通用的基于代理式视觉语言模型(VLM)的框架,该框架融入了模型固有的推理能力。我们的方法在五种高难度验证码类型上取得了最先进的性能,平均解决准确率达到83.9%,显著超越了现有基线。这些结果揭示了当前模型的局限性,并强调了推理在未来推进视觉空间挑战方面的重要性。 |
| 2025-10-07 | Detection and Measurement of Hailstones with Multimodal Large Language Models | null | 本研究考察了利用预训练多模态大语言模型,通过社交媒体和新闻图像检测和测量冰雹。本研究的数据集包含474张众包冰雹图像,这些图像来自2022年1月至2024年9月期间奥地利有记录的冰雹事件。这些冰雹的最大直径范围为2到11厘米。我们估计了冰雹直径,并比较了利用单阶段和双阶段提示策略的四种不同模型。后者利用图像中参照物(例如人手)提供的额外尺寸线索。我们的结果表明,预训练模型已经具备从图像中测量冰雹直径的潜力,其中最佳模型的平均平均绝对误差为1.12厘米。与单阶段提示相比,双阶段提示提高了大多数模型的可靠性。我们的研究表明,这些现成的模型即使未经微调,也能通过从社交媒体图像中提取有意义且空间密集的信息,补充传统的冰雹传感器,从而实现对恶劣天气事件更快、更详细的评估。从社交媒体和其他来源自动实时获取图像仍然是一项开放任务,但它将使我们的方法直接适用于未来的冰雹事件。 |
| 2025-10-07 | Diffusion Models for Low-Light Image Enhancement: A Multi-Perspective Taxonomy and Performance Analysis | null | 微光图像增强(LLIE)对于监控、自动导航和医学成像等安全关键型应用至关重要,因为在这些应用中,可见性下降会损害下游任务性能。近期,扩散模型因其通过迭代去噪建模复杂图像分布的能力,已成为LLIE领域一种有前景的生成范式。本综述对用于LLIE的扩散模型提供了最新批判性分析,其突出特点是对生成对抗网络和基于Transformer的最新方法进行了深入的比较性能评估,全面考察了实际部署挑战,并对基础模型等新兴范式的作用提出了前瞻性视角。我们提出了一种多视角分类法,涵盖六个类别:内在分解、光谱与潜在、加速、引导、多模态和自主;该分类法根据物理先验、条件方案和计算效率来映射增强方法。我们的分类法基于模型机制和条件信号的混合视角。我们评估了定性失效模式、基准不一致性以及解释性、泛化性与推理效率之间的权衡。我们还讨论了实际部署限制(例如,内存、能源消耗)和伦理考量。本综述旨在通过突出趋势和提出开放研究问题(包括新颖条件化、实时适应和基础模型的潜力),指导下一代基于扩散的LLIE研究。 |
| 2025-10-07 | Gaussian Embeddings: How JEPAs Secretly Learn Your Data Density | null | 联合嵌入预测架构(JEPAs)学习到的表征能够开箱即用地解决众多下游任务。JEPAs结合了两个目标:(i) 一个潜在空间预测项,即轻微扰动样本的表征必须可以从原始样本的表征中预测出来;以及 (ii) 一个抗坍塌项,即并非所有样本都应具有相同的表征。尽管 (ii) 通常被认为是表征坍塌的显而易见的补救措施,但我们发现JEPAs的抗坍塌项作用远不止于此——它可证明地估计数据密度。简而言之,任何成功训练的JEPA都可以用来获取样本概率,例如用于数据整理、异常检测,或仅仅用于密度估计。我们的理论发现与所使用的数据集和架构无关——无论如何,都可以使用模型在 |
| 2025-10-07 | BioAutoML-NAS: An End-to-End AutoML Framework for Multimodal Insect Classification via Neural Architecture Search on Large-Scale Biodiversity Data | null | 昆虫分类对于农业管理和生态研究至关重要,因为它直接影响作物健康和生产。然而,由于昆虫的复杂特征、类别不平衡和大规模数据集,这项任务仍然具有挑战性。为解决这些问题,我们提出了BioAutoML-NAS,这是首个使用多模态数据(包括图像和元数据)的BioAutoML模型,它将神经架构搜索(NAS)应用于图像,以自动学习每个单元内每个连接的最佳操作。多个单元堆叠形成完整网络,每个单元提取详细的图像特征表示。多模态融合模块将图像嵌入与元数据结合,使模型能够利用视觉和类别生物信息对昆虫进行分类。交替双层优化训练策略联合更新网络权重和架构参数,同时零操作移除不重要的连接,从而生成稀疏、高效且高性能的架构。在BIOSCAN-5M数据集上的大量评估表明,BioAutoML-NAS实现了96.81%的准确率、97.46%的精确率、96.81%的召回率和97.05%的F1分数,分别比最先进的迁移学习、Transformer、AutoML和NAS方法高出约16%、10%和8%。在Insects-1M数据集上的进一步验证获得了93.25%的准确率、93.71%的精确率、92.74%的召回率和93.22%的F1分数。这些结果表明BioAutoML-NAS提供了准确、可靠的昆虫分类,支持现代可持续农业。 |
| 2025-10-03 | LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models | null | 多模态大语言模型 (MLLMs) 在通用视觉基准上表现出色,但在医学影像等专业领域面临分布外 (OOD) 任务挑战,这些领域的标注数据有限且昂贵。我们提出了LEAML,一个标签高效的适应框架,它利用稀缺的标注VQA样本和大量的未标注图像。我们的方法通过由标题蒸馏正则化的问答生成器,为未标注数据生成领域相关的伪问答对。重要的是,我们仅选择性地更新与问答最相关的神经元,使问答生成器能够在蒸馏过程中高效获取领域特定知识。在胃肠内窥镜和体育VQA上的实验表明,在最少监督下,LEAML始终优于标准微调,突显了我们提出的LEAML框架的有效性。 |
| 2025-10-03 | Improving GUI Grounding with Explicit Position-to-Coordinate Mapping | null | GUI接地,即将自然语言指令映射到像素坐标的任务,对自主代理至关重要,但对当前视觉-语言模型(VLMs)来说仍然很困难。核心瓶颈是可靠的块到像素映射,当外推到训练期间未见过的高分辨率显示器时,这种映射就会失效。当前方法直接从视觉特征中将坐标生成为文本标记,这迫使模型隐式地推断复杂的位置到像素映射;结果是,在新分辨率下,准确性下降,故障增多。我们通过两种互补的创新来解决这个问题。首先,RULER标记作为显式坐标标记,让模型能够像参考地图上的网格线一样参考位置,并进行调整而不是从头生成坐标。其次,交错式MRoPE (I-MRoPE) 通过确保宽度和高度维度被平等地表示来改进空间编码,解决了标准位置编码方案的不对称性。在ScreenSpot、ScreenSpot-V2和ScreenSpot-Pro上的实验显示,接地准确性持续提升,在高分辨率界面上的提升最大。通过提供显式空间指导而非依赖隐式学习,我们的方法实现了跨越不同分辨率和平台的更可靠的GUI自动化。 |
| 2025-10-03 | Coevolutionary Continuous Discrete Diffusion: Make Your Diffusion Language Model a Latent Reasoner | null | 扩散语言模型,特别是掩码离散扩散模型,最近取得了巨大成功。尽管有一些理论和初步的实证结果表明循环Transformer或连续思维链在潜在推理方面具有优势,但连续扩散模型的性能通常不如其离散对应物。在本文中,我们认为扩散语言模型不一定需要在离散空间中。具体来说,我们证明了连续扩散模型比离散扩散和循环Transformer具有更强的表达能力。我们将理论表达能力与经验性能之间的矛盾归因于它们的实际可训练性:虽然连续扩散提供了循环Transformer所缺乏的中间监督,但它们在将连续表示空间中的令牌解码到离散令牌空间时引入了额外的困难。因此,我们提出了协同演化连续离散扩散(CCDD),它在连续表示空间和离散令牌空间的并集上定义了一个联合多模态扩散过程,利用单个模型在联合空间中同时去噪。通过结合两种模态,CCDD在潜在空间中具有丰富的语义表达能力,并且借助显式离散令牌,具有良好的可训练性和样本质量。我们还为CCDD提出了有效的架构和先进的训练/采样技术,这在真实世界任务的广泛语言建模实验中展现出强大的经验性能。 |
| 2025-10-03 | Simulation to Rules: A Dual-VLM Framework for Formal Visual Planning | null | 视觉语言模型 (VLM) 在视觉规划方面展现出强大潜力,但在精确的空间推理和长程推理方面表现不足。相比之下,规划领域定义语言 (PDDL) 规划器擅长长程形式化规划,但无法解释视觉输入。近期工作通过使 VLM 能够将视觉规划问题转化为 PDDL 文件用于形式化规划,从而结合了这些互补优势。然而,尽管 VLM 可以令人满意地生成 PDDL 问题文件,但它们却难以准确生成描述所有规划规则的 PDDL 领域文件。因此,先前方法依赖人类专家预定义领域文件,或依赖持续的环境访问进行细化。我们提出了 VLMFP,一个双 VLM 引导的框架,能够自主生成 PDDL 问题文件和领域文件,以实现形式化视觉规划。VLMFP 引入了两个 VLM 以确保可靠的 PDDL 文件生成:一个 SimVLM 根据输入的规则描述模拟行动后果,另一个 GenVLM 则通过比较 PDDL 和 SimVLM 的执行结果来生成并迭代细化 PDDL 文件。VLMFP 释放了多层次的泛化能力:相同的生成 PDDL 领域文件适用于同一问题下的所有不同实例,并且 VLM 可以泛化到具有不同外观和规则的不同问题。我们使用 6 个网格世界领域评估了 VLMFP,并测试了其对未见实例、外观和游戏规则的泛化能力。平均而言,SimVLM 分别针对已见和未见外观,准确描述了 95.5%、82.6% 的情景,模拟了 85.5%、87.8% 的行动序列,并判断了 82.4%、85.6% 的目标达成率。在 SimVLM 的指导下,VLMFP 可以生成 PDDL 文件,分别针对已见和未见外观中的未见实例,实现 70.0%、54.1% 的有效规划。项目页面:https://sites.google.com/view/vlmfp。 |
| 2025-10-03 | SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus | null | 脊柱疾病影响全球6.19亿人,是主要致残原因,然而,AI辅助诊断仍受限于缺乏具备椎体层面感知能力的多模态数据集。脊柱疾病的临床决策需要在特定椎体层面,跨X射线、CT和MRI进行复杂的推理。然而,进展一直受制于缺乏可追溯、基于临床的指令数据以及标准化、脊柱专用基准。为此,我们推出了SpineMed,一个与执业脊柱外科医生共同设计的生态系统。其包含SpineMed-450k,这是首个专门为跨影像模态的椎体层面推理而设计的大规模数据集,包含超过45万条指令实例,以及SpineBench,一个基于临床的评估框架。SpineMed-450k数据源自多种途径,包括教科书、临床指南、开放数据集和约1000例去身份化的医院病例,并采用临床医生参与的循环流程,结合两阶段大语言模型生成方法(草稿和修订),以确保高质量、可追溯的数据,用于问答、多轮会诊和报告生成。SpineBench从临床关键维度评估模型,包括椎体层面识别、病理评估和手术规划。我们对SpineBench上近期几种先进的大型视觉语言模型(LVLMs)进行的综合评估,揭示了它们在细粒度、特定层面推理方面的系统性弱点。相比之下,我们在SpineMed-450k上微调的模型在所有任务上都表现出持续显著的改进。临床医生评估证实了我们模型输出的诊断清晰度和实用性。 |
| 2025-10-03 | Focal-plane wavefront sensing with moderately broadband light using a short multi-mode fiber | null | 我们提出了一种基于短多模光纤(MMF)的焦平面波前传感器(FPWFS),能够在适度宽带照明下工作。通过将畸变的焦平面场耦合到长度小于1厘米的MMF中,我们在近红外波长处实现了10纳米带宽范围内的模式干涉保持。产生的输出强度图样编码了瞳孔相位信息,从而可以通过神经网络实现波前恢复。我们的方法解决了偶次瞳孔相位像差固有的符号模糊性,并使用现成的计算硬件在毫秒级时间尺度上运行,适用于实时自适应光学。与传统瞳孔平面传感器不同,所提出的FPWFS与科学光束共享光路,通过实现波前和焦平面强度同时重建,消除了非共路像差。其简洁性、紧凑性、灵敏度和低成本使其成为下一代天文仪器的有吸引力的候选者。 |
| 2025-10-03 | TIT-Score: Evaluating Long-Prompt Based Text-to-Image Alignment via Text-to-Image-to-Text Consistency | null | 随着大型多模态模型(LMMs)的迅速发展,近期的文本到图像(T2I)模型能够生成高质量图像,并对短提示词表现出良好的对齐性。然而,它们在有效理解和遵循长而详细的提示词方面仍然面临挑战,表现出生成不一致的问题。为解决这一挑战,我们引入了LPG-Bench,一个用于评估基于长提示词的文本到图像生成的综合基准。LPG-Bench包含200个精心设计的提示词,平均长度超过250词,接近了几个领先商业模型的输入容量。利用这些提示词,我们从13个最先进的模型中生成了2,600张图像,并进一步进行了全面的人工排序标注。基于LPG-Bench,我们发现最先进的T2I对齐评估指标在基于长提示词的图像生成上与人类偏好表现出较差的一致性。为弥补这一差距,我们引入了一种新颖的零样本度量,称为TIT,它基于文本到图像再到文本的一致性,用于评估长提示词生成的图像。TIT的核心概念是通过直接比较原始提示词与LMM对生成图像产生的描述之间的一致性来量化T2I对齐性,它包括一个高效的基于分数的实现TIT-Score和一个基于大型语言模型(LLM)的实现TIT-Score-LLM。大量实验表明,与CLIP-score、LMM-score等相比,我们的框架与人类判断表现出卓越的一致性,其中TIT-Score-LLM在成对准确率上比最强的基线实现了7.31%的绝对提升。LPG-Bench和TIT方法共同为T2I模型的基准测试和发展提供了更深入的视角。所有资源都将公开可用。 |
| 2025-10-03 | [Multimodal Ca |