商汤开源SenseNova-MARS：突破多模态搜索推理天花板-平芜编程栈

今日，商汤正式开源多模态自主推理模型 SenseNova-MARS（8B/32B 双版本），其在多模态搜索与推理的核心基准测试中以 69.74 分超越Gemini-3-Pro（69.06 分）、GPT-5.2（67.64 分）。

SenseNova-MARS是首个支持动态视觉推理和图文搜索深度融合的 Agentic VLM 模型，它能自己规划步骤、调用工具，轻松搞定各种复杂任务，让AI真正具备“执行能力”。

在 MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基准测试中，SenseNova-MARS取得开源模型中的 SOTA 成绩，还超越Gemini-3.0-Pro、GPT-5.2等顶级闭源模型，在搜索推理和视觉理解两大核心领域全面领跑。

更多细节请参见技术报告（https://arxiv.org/abs/2512.24330）

全能冠军，自主解决复杂问题

SenseNova-MARS在多项多模态搜索评测中展现出明显的领先优势，平均得分达到 69.74 分，成功超过了 Gemini-3-Pro 的 69.06 分与 GPT-5.2 的 67.64 分。

在MMSearch 榜单（图文搜索核心评测）中，模型以 74.27 分登顶，超越GPT-5.2（66.08 分）；HR-MMSearch（高清细节搜索评测）中 54.43 分领先，显著拉开与闭源模型的差距。

HR-MMSearch的测试题目堪称“AI界的奥林匹克”：采用305张2025年最新的4K超高清图片，确保AI无法依赖旧知识“作弊”；所有问题都针对图片中占比不到5%的细节，比如小标志、小字、微小物体，必须用图像裁剪工具才能看清；覆盖体育、娱乐文化、科学技术、商业金融、游戏、学术研究、地理旅行等八大领域，60%的问题都需要至少使用三种工具才能解答。

简单说，无论是需要“查遍全网”的知识密集型任务，还是需要“火眼金睛”的细粒度视觉分析，它都是当前的“全能冠军”。

用组合拳，解决真实场景问题SenseNova-MARS还能实实在在落地到我们生活和工作的场景，解决需要“多步骤推理+多工具协作”的问题。

普通AI的工具调用，要么只能搜文字，要么只能看图片，遇到需要“先放大细节、再识别物体、最后查背景”的复杂任务就束手无策。

面对识别赛车服微小 logo + 查询公司成立年份 + 匹配车手出生年月 + 计算差值’的复杂任务，SenseNova-MARS 可自主调用图像裁剪、文本 / 图像搜索工具，无需人工干预完成闭环解答。

SenseNova-MARS能从产品和行业峰会的照片中，识别企业的标志，快速搜集产品、企业的信息，以及时间、数量、参数等细节要素，辅助分析行业情况和格局。

SenseNova-MARS能从赛事照片中识别画面中的logo、人物等信息，追溯比赛或人员背景信息，帮助快速补充重要细节。

SenseNova-MARS甚至能够轻松处理，这类超长步骤的多模态推理，和超过三种工具调用，自动裁剪分析细节、搜索相关研究数据，快速验证假设，得出关键判断。

拥有这种“自主思考+多工具协作”的能力，SenseNova-MARS能够自动解决“细节识别 + 信息检索 + 逻辑推理”复杂任务，帮助实现工作效率提升。

图像裁剪：能精准聚焦图片上的微小细节，哪怕是占比不到5%的细节——比如赛车手衣服上的微小logo、赛事照片里观众席的标语，都可通过裁剪放大清晰分析。
图像搜索：能在看到物体、人物或场景，的瞬间自动匹配相关信息——比如识别出赛车手的身份，或是某款冷门设备的型号。
文本搜索：能快速抓取精准信息——无论是公司成立年份、人物出生年月，还是最新的行业数据，都能秒级获取。

从练中学，形成“经验”和“直觉”

SenseNova-MARS采用了“因材施教”的训练方法。

第一阶段：打基础。针对跨模态多跳搜索推理训练数据稀缺的痛点，创新性的提出了基于多模智能体的自动化数据合成引擎，采用细粒度视觉锚点+ 多跳深度关联检索的机制，动态挖掘并关联跨网页实体的逻辑，自动化构建高复杂度的多跳推理链路，同时引入闭环自洽性校验来去除幻觉数据，构造出具备严密逻辑链条与高知识密度的多跳搜索问答数据。用精心筛选的“高难度案例”做教材，每个案例都标注了“该用什么工具、步骤是什么”，让AI先学会基本的“破案逻辑”。这些案例都是从海量数据中挑出的“硬骨头”，确保AI一开始就接触真实复杂场景。

第二阶段：练实战。采用“强化学习”——就像侦探在一次次破案中积累经验，AI每做对一次决策（比如选对工具、步骤合理）就会获得奖励，做错了就调整策略。为了避免AI“学偏”，研究团队还加了个“稳定器”——BN-GSPO算法，让它在处理简单题和复杂题时都能保持稳定进步，不会出现“偏科”。这种基于双阶段归一化的优雅机制有效平滑了动态工具调用返回分布多样性带来的优化波动并确保了学习信号分布的一致性，从而成功解决了跨模态多步多工具智能体训练过程中的收敛性难题。

经过这样的训练，AI不仅学会了用工具，更培养"工具使用直觉"——知道在什么情况下应该使用哪些工具，以及如何将不同工具的结果有机结合起来。