news 2026/5/22 12:15:58

arXiv 2025|RGB-Th-Bench:第一个专注于可见光–热成像理解的密集型视觉语言模型基准

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
arXiv 2025|RGB-Th-Bench:第一个专注于可见光–热成像理解的密集型视觉语言模型基准

一、论文信息

论文标题:RGB-Th-Bench: A Dense Benchmark for Visual-Thermal Understanding of Vision-Language Models
作者:Mehdi Moshtaghi, Siavash H. Khajavi, Joni Pajarinen
机构:Aalto University,KTH Royal Institute of Technology,Detectium Oy
会议:arXiv

二、论文摘要

Vision-Language Models(VLMs)近年来取得了突破性进展,但现有的大多数评测基准几乎全部集中在 RGB 图像领域。对于RGB–热成像(RGB-Thermal)配对图像的理解,目前仍是研究中的巨大空白。为了填补这一空缺,论文提出了第一个专注于 RGB–热成像理解能力的密集型 VLM 基准——RGB-Th-Bench

三、论文创新点

3.1 首个专注于 RGB–Thermal 理解的密集型 VLM 基准

论文明确指出:现有 VLM benchmark 几乎全是 RGB 图像,而 RGB–热成像(RGB-Thermal)能力从未被系统评测。
RGB-Th-Bench 是 第一份:
1.同时包含“RGB + Thermal 配对图像”
2.专注于热成像理解、多模态对齐
3.覆盖 14 个核心技能维度
4.每个样本提供 56 个 QA(极高密度)
这是对现有 VLM 评测空白的首次补齐。

3.2 首个在热成像任务中使用多维度、高密度 YES/NO QA 的设计

RGB-Th-Bench 的独特性包括:
1.每个维度 4 个独立问题
2.每个 RGB–Thermal 样本 56 个问题
3.QA 全部基于 “Yes/No”,避免复杂语言干扰
4.允许构建负向问题、互斥问题,用于检测 hallucination
该设计使得 benchmark 能:严格测试鲁棒性,检测模型是否稳定理解热图像并且检测模型是否能跨 RGB 与 Thermal 建立一致语义
这些密度和 QA 体系是现有 benchmark 都不具备的。

3.3设计了 RGB-Txt 与 RGB-Th-Txt 两种 Prompt-Groups,可分离 RGB 影响

这是论文非常关键的创新:
RGB-Txt:只输入 RGB 图像 → 测模型基本视觉能力
RGB-Th-Txt:输入 RGB + Thermal → 测模型热成像理解能力
这样可以:分离 thermal 理解表现是否被 RGB 基础能力限制造成并衡量 RGB → RGB-Thermal 的增益或损失,找到模型热成像理解中的真实瓶颈
论文实验也证明:
所有模型的热成像表现都受到其RGB 水平限制

四、论文动机

1.当前几乎所有 VLM 基准都基于 RGB → 无法评估热成像理解
2.热成像数据稀缺、难标注、无文本——模型无法学到热成像理解能力
3. 热成像理解依赖 RGB 能力,模型表现需要分离与验证

五、实验方法和数据分析

5.1 数据来源与规模

RGB-Th-Bench 包含:
1.58 张图像(29 对 RGB–热成像配对)
2.1624 条手工设计的专家标注 Yes/No 问题
3.14 个技能维度
4.每对图像共 56 个问题
所有图像均来自作者内部资料或使用 FLIR ONE Edge Pro 设备拍摄,不包含任何来自现有公共数据集的图像,确保评测公平性。

5.2评测指标设计

RGB-Th-Bench 提供两个严格的指标:

  1. Question-level Accuracy (QAcc)
    计算所有问题的正确率
    随机基线为 50%
  2. Skill-level Accuracy (SAcc)
    每个技能维度的四个问题都答对才算 “Pass”
    随机基线仅为 6.25%
    更能反映模型是否真正理解某项技能

论文强调:SAcc 是更严格、更能发现模型弱点的指标。

5.3实验与分析


展示了 2 个数据样本(含 RGB-thermal 图像对)对应的 16 个问答(Q/A)示例,覆盖 4 个技能维度,同时呈现了 3 个代表性 VLM(GPT4-o、MiniCPM-o-2.6、Qwen2.5-VL-7B)的回答结果,包含问题(Q)、真实标签(GT)和模型响应。







1.闭源模型性能断层领先:GPT4o-20241120 在 QAcc、SAcc 及所有技能维度的表现均大幅超过其他模型,是当前多模态能力最全面的模型之一。
2.开源模型 “偏科” 明显:开源模型的问题理解(QAcc)已接近闭源水平,但选项匹配(SAcc)差距显著;且不同模型仅在特定技能维度(如 Scene、ObjPr)表现突出,无 “全优模型”。
3.复杂任务挑战更大:“RGB-Th-Txt” 这类多模态嵌套任务的模型得分,普遍低于 “RGB-Txt” 单模态融合任务,对跨模态推理能力要求更高。
4.模型能力有效性已验证:绝大多数模型的 QAcc、SAcc 均显著超过随机基线,证明当前多模态模型的跨模态理解能力具备实用价值。
5.模型间差距极大:顶尖开源模型与落后模型的性能差异悬殊,部分模型(如 Chameleon-7B)表现接近 / 低于基线。

六、总结

RGB-Th-Bench 的出现填补了 VLM 评测的重要缺口。它不仅揭示了模型在热成像理解上的不足,也为未来的多模态研究提供了标准化、严谨且高密度的评测工具。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/18 16:38:30

字符串中 26 个英文字母的频率统计(不区分大小写)

固定宽度整数类型、字符大小写转换、数组下标映射字母#include<stdio.h> #include<ctype.h> // 提供字符处理函数&#xff08;tolower&#xff09;#define LETTER_COUNT 26 // 定义26个英文字母的常量 int main(void) {int frequency[LETTER_COUNT] { 0 };char t…

作者头像 李华
网站建设 2026/5/22 8:07:53

Ascend C 生态深度集成:从 PyTorch/MindSpore 到大模型部署全流程实战

引言&#xff1a;打破框架壁垒&#xff0c;让 Ascend C 成为您的“性能插件”许多团队已在 PyTorch/TensorFlow 上积累了大量模型&#xff0c;但希望在昇腾硬件上获得更高性价比。然而&#xff0c;直接迁移往往面临性能损失——因为框架默认算子未针对 NPU 优化。Ascend C 提供…

作者头像 李华
网站建设 2026/5/22 12:16:52

凌晨2点的CPU报警:一条慢SQL引发的血案

监控大屏上的CPU曲线突然飙升到99%&#xff0c;报警群里的钉钉响个不停。 “数据库崩了。” 运维查了一圈&#xff0c;最后丢出一张截图&#xff1a;一条没有任何索引关联的 SELECT * 正在对一张五千万行的订单表进行全表扫描。这行代码是三个月前实习生写的&#xff0c;当时数…

作者头像 李华
网站建设 2026/5/22 12:56:39

洛雪音乐助手

链接&#xff1a;https://pan.quark.cn/s/8d7999ad6a7a洛雪音乐助手电脑版是一个基于 electron 的音乐下载软件&#xff0c;海量超高品质无损音乐&#xff0c;集结千万用户打造歌单发源地还不快来下载使用。

作者头像 李华
网站建设 2026/5/22 2:02:38

springboot基于vue的web考研模拟考试系统_fzr42dr3

目录已开发项目效果实现截图开发技术系统开发工具&#xff1a;核心代码参考示例1.建立用户稀疏矩阵&#xff0c;用于用户相似度计算【相似度矩阵】2.计算目标用户与其他用户的相似度系统测试总结源码文档获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&…

作者头像 李华
网站建设 2026/5/22 12:26:03

springboot基于vue的《计算机科学导论》在线测评系统设计与实现_lvqc54wf

目录 已开发项目效果实现截图开发技术系统开发工具&#xff1a; 核心代码参考示例1.建立用户稀疏矩阵&#xff0c;用于用户相似度计算【相似度矩阵】2.计算目标用户与其他用户的相似度系统测试总结源码文档获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&am…

作者头像 李华