EVOL-SAM3：不训练也能进化，7B模型逆袭72B大模型！-平芜编程栈

厦门大学团队提出EVOL-SAM3零样本框架，通过扩展推理时计算模拟生物进化过程，实现"生成-评估-进化"推理闭环。仅用7B参数的模型就在多个基准测试中超越了经过全量微调的13B模型，甚至逆袭了72B参数量的基线模型，证明优化推理过程比盲目增加参数量更有效。

Datawhale干货作者：厦门大学MAC团队在多模态大模型（MLLM）的研究浪潮中，我们似乎习惯了一种固定的“暴力美学”：想要模型掌握新技能，就必须投入昂贵的算力进行全量微调（SFT）或强化学习（RL）。然而，来自厦门大学多媒体可信感知与高效计算重点实验室的研究团队，在其最新工作中提出了一个反直觉的命题：也许我们根本不需要训练模型，只需要让模型的推理过程“进化”起来。这篇题为《Evolving, Not Training》的研究，提出了一种名为EVOL-SAM3的零样本框架。它并未遵循传统的参数更新路线，而是通过扩展推理时计算（Inference-time Computation），在不更新任何参数的情况下，仅凭 7B 模型就在多个基准测试中超越了经过全量微调的 13B 模型，甚至逆袭了 72B 参数量的基线模型。一、告别“死记硬背”，拥抱动态搜索长期以来，指代分割（Reasoning Segmentation）任务面临着两难困境。SFT 方法虽然有效，但本质上是强行让模型“记住”特定的图文对齐关系，这不仅成本高昂，还容易导致模型丧失通用的常识推理能力（灾难性遗忘）。而现有的免训练 Agent（如 SAM3 Agent），虽然保留了通用能力，却受限于线性的“单向推理”模式——一旦初始理解出现偏差，模型缺乏回溯或自我修正的机制，往往只能输出错误结果。 EVOL-SAM3 选择了一条截然不同的道路。研究团队认为，对于复杂的视觉语义，最优的提示词（Prompt）往往不是一次生成的，而是可以通过在潜在空间中进行搜索和优化得到的。受生物进化论的启发，该框架将静态的推理过程重构为一个动态的“生成-评估-进化”闭环。图 1：EVOL-SAM3 框架概览。包含初始化、进化推理循环及最终仲裁三个阶段。

二、像生物进化一样思考

EVOL-SAM3 的核心机制模拟了自然界的“优胜劣汰”。面对一个模糊的用户查询（例如“找出那个滑雪的人”），系统不再草率地给出一个定论，而是首先进行语义元规划。模型利用 MLLM 作为元生成器，结合图像内容，从颜色、纹理、空间位置等多个维度发散思维，生成一个多样化的初始提示词种群（Population）。

随后的进化推理循环是整个框架的精髓所在。在没有标准答案（Ground Truth）的推理阶段，如何判断生成的分割掩膜好不好？研究团队利用了 MLLM “判别能力强于生成能力”的特性，构建了一个视觉竞技场（Visual Arena）。在这个竞技场中，不同的提示词生成的掩膜进行两两 PK，MLLM 化身裁判，根据原始查询判断哪一个结果更精准。

胜出的“精英”提示词会获得生存权，并接受语义突变（Semantic Mutation）。这并非简单的随机字符扰动，而是逻辑上的升级——例如，模型可能会将“右边的人”自动进化为“最右边穿绿衣服的男性”，从而引导搜索方向一步步逼近真相。

为了防止纯文本推理可能产生的语义幻觉，框架还引入了异构最终仲裁机制。系统将进化出的“文本推理掩码”与大模型直觉生成的“几何检测框”进行最终对决。通过一种巧妙的双盲切换判定机制，系统能够有效消除模型的位置偏见，确保最终输出既具备语义深度，又拥有几何上的鲁棒性。

三、小参数的大逆袭：7B vs 72B

实验数据有力地证明了这种新范式的有效性。在极具挑战性的ReasonSeg基准测试中，EVOL-SAM3 (7B)取得了70.7 gIoU的成绩。这个数字的含金量在于，它在零样本、无训练的前提下，直接超越了经过全量监督微调的经典模型LISA-13B (65.0 gIoU)。这表明挖掘冻结模型的推理潜力，是一条比昂贵的微调更具性价比的路径。

实验数据最有趣的部分，在于 EVOL-SAM3 与其直接基线SAM 3 Agent的对比。这是一个极具说服力的“控制变量”实验：两者使用完全相同的冻结底座（Qwen2.5-VL）和完全相同的执行器（SAM 3），唯一的区别在于推理机制——是线性的“试错”，还是进化的“搜索”？

**1. 相同体量下的碾压级优势（7B vs 7B）**当我们将参数量限制在 7B 时，SAM 3 Agent 仅能获得 63.0 gIoU 的测试集成绩。而仅仅是引入了进化搜索机制的 EVOL-SAM3，在不增加任何模型参数的情况下，将这一分数直接拉升至72.5 gIoU。高达9.5 个点的性能跃升，充分证明了线性推理在处理复杂语义时的局限性，以及进化算法在挖掘模型潜在能力上的巨大效率。

**2. 小模型逆袭超大模型（7B vs 72B）**更令人深思的是一场“大卫与歌利亚”的战役。通常认为，大模型的参数量是性能的护城河。然而，EVOL-SAM3 打破了这一定律：仅有7B参数的它，竟然在 ReasonSeg 测试集上击败了拥有十倍参数量的 **SAM 3 Agent (72B)**（72.5 vs 70.8 gIoU）。

这种反超在**长难句（Test Long）**场景下尤为剧烈。SAM 3 Agent 72B 在面对复杂长文本时得分为 71.0，而 EVOL-SAM3 7B 则达到了74.3。这揭示了一个深刻的结论：在复杂的视觉推理任务中，盲目堆砌参数并非唯一出路；通过推理时计算来提升思维的广度与深度，往往能以更小的代价实现更优的智能涌现。

下表展示了 EVOL-SAM3 与现有 SOTA 方法在 ReasonSeg 基准上的详细对比：

表 1：ReasonSeg 基准测试结果。EVOL-SAM3 刷新了同模型大小下的 Training-Free 方法的最佳记录。

更令人印象深刻的是与同类 Agent 的对比。基线模型SAM3 Agent即使动用了72B的超大参数版本，在测试集上也仅获得 70.8 gIoU。而 EVOL-SAM3 仅凭7B参数就达到了72.5 gIoU，实现了对“参数堆砌”路线的反超。特别是在处理长难句查询时（Test Long），EVOL-SAM3 的优势更加明显，达到了74.3 gIoU，显著优于 GPT-4o 驱动的 RSVP 模型。

定性分析也佐证了这一优势。在面对如“找出划船需要的物体”这类功能性描述时，基线模型容易被显眼的“船”带偏，而 EVOL-SAM3 通过进化循环成功修正了注意力，精准分割出了细小的“船桨”。

四、结语

EVOL-SAM3 的成功，本质上是Scaling Inference-time Computation（扩展推理时计算）理念的一次胜利。它告诉我们，在算力资源有限、标注数据昂贵的现实下，与其盲目追求更大的参数量，不如赋予模型在推理阶段“多想一步、自我修正”的能力。这种无需训练、即插即用的进化范式，或许正是通往更通用、更灵活的视觉智能体的关键钥匙。

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

04.大模型面试题目详解

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓