news 2026/5/10 1:14:28

<span class=“js_title_inner“>【厦门大学-曹刘娟组-arXiv25】进化,而非训练:通过进化提示实现零样本推理分割</span>

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
<span class=“js_title_inner“>【厦门大学-曹刘娟组-arXiv25】进化,而非训练:通过进化提示实现零样本推理分割</span>

文章:Evolving, Not Training: Zero-Shot Reasoning Segmentation via Evolutionary Prompting

代码:https://github.com/AHideoKuzeA/Evol-SAM3

单位:厦门大学


一、问题背景:推理分割的三大核心痛点

推理分割的关键难点在于“语言-视觉-逻辑”的三重对齐,但现有主流方法始终无法突破以下瓶颈:

  1. 监督微调(SFT):“记了新的,忘了旧的”
    传统SFT方法需要用大量标注数据训练特定任务,却存在严重的“灾难性遗忘”——训练完“医疗影像分割”后,再处理“家居场景分割”时,会丢失之前学到的特征;同时,它高度依赖领域数据,若换一个未见过的场景(如工业零件缺陷分割),准确率会骤降30%-50%,通用性极差。

  2. 强化学习(RL):“奖励依赖症”与训练不稳定
    RL方法试图通过“奖励函数”引导模型优化,但奖励函数的设计极具主观性——比如“分割准确率”和“边界完整性”的权重难以平衡,稍有调整就会导致训练震荡;此外,RL训练周期长、算力消耗大,且在复杂语言查询(多条件嵌套)下,容易出现“奖励误判”,反而降低分割精度。

  3. 无训练方法:“一步到位”的静态陷阱
    近期兴起的无训练方法虽避开了训练负担,却陷入“生成-然后分割”的单流程静态范式——模型只能根据初始提示生成一次分割结果,无法自我检查错误。比如遇到“找出桌子上不是蓝色的杯子”这类否定性查询时,容易误将蓝色杯子纳入结果;若图像中物体有遮挡(如“被书本挡住一半的笔记本电脑”),也无法修正空间定位偏差,推理深度严重不足。

二、方法创新:用“进化思维”重构推理分割逻辑

针对静态推理的局限,EVOL-SAM3提出了“推理时进化搜索”的全新框架——不依赖固定提示,而是让模型像生物进化一样,通过“生成-评估-进化”循环迭代优化提示假设,核心创新点可拆解为三大模块:

1. 动态提示池:告别“单一提示依赖”

不同于传统方法的“单提示输入”,EVOL-SAM3初始化一个包含10-20个“提示假设”的动态池(比如针对“红色椅子上的人”,提示池会包含“红色物体+人形区域”“椅子轮廓+人体关键点”等不同角度的提示),每个提示对应一个初步分割结果,为后续进化提供“基因多样性”。

2. 三大核心循环:模拟“自然选择”的优化逻辑

框架的核心是持续迭代的“生成-评估-进化”循环,每个环节都有针对性设计:

  • 生成环节:基于当前提示池,调用SAM(Segment Anything Model)生成对应分割掩码,确保基础分割能力的可靠性;

  • 评估环节:引入“视觉竞技场”——无需外部标签,而是让两个提示的分割结果“两两竞赛”,通过对比“语言查询匹配度”(如是否包含“红色”特征)和“空间完整性”(如是否完整覆盖“椅子”区域),自动打分筛选优质提示;

  • 进化环节:设计“语义变异算子”——对高分提示进行微调(如将“红色”细化为“酒红色”“鲜红色”),同时补充新的候选提示,避免陷入局部最优,像生物变异一样保持提示池的多样性。

3. 异构竞技场:融合几何与语义的“最终裁判”

在循环末期,引入“异构竞技场”模块——不仅评估语义匹配度,还加入几何先验(如“人坐在椅子上”的空间位置关系:人体应在椅子上方,且两者边界有重叠),对剩余候选提示进行最终筛选,确保分割结果既符合语言逻辑,又符合现实世界的空间规律。

三、实验结果:零样本场景下超越全监督SOTA

研究团队在推理分割领域的权威基准ReasonSeg(包含家居、办公、户外等6类复杂场景,共1.2万张图像+3.5万条复杂语言查询)上开展实验,重点验证零样本性能(即模型未在ReasonSeg数据集上进行任何训练),结果远超现有方法:

从表格可见,EVOL-SAM3在零样本设置下,平均IoU不仅比无训练静态方法高8.6%-10.6个百分点,更直接超越了全监督SOTA方法(CoOp+SAM)4.2个百分点;尤其在“多条件嵌套”“否定性查询”等复杂任务中,准确率提升更为显著(比全监督方法高7.8个百分点)。

此外,在“遮挡场景”和“跨领域场景”(如训练数据为家居,测试数据为工业零件)的专项测试中,EVOL-SAM3的性能衰减率仅为8%-12%,而传统无训练方法衰减率高达25%-35%,充分证明其场景适应性。

四、优势与局限:客观看待“进化式”框架的价值

(一)核心优势

  1. 零样本通用性拉满
    无需任何目标数据集的训练,即可直接应用于医疗、工业、家居等不同领域,解决了SFT“领域依赖”和RL“训练成本高”的痛点,落地门槛大幅降低。

  2. 推理灵活性突破静态局限
    通过“循环进化”实现自我修正,能处理否定句、多条件查询、物体遮挡等复杂场景,解决了传统无训练方法“一步错、步步错”的问题。

  3. 无标注依赖,低成本落地
    全程无需人工标注数据,仅依赖初始提示池和自动评估机制,尤其适合标注成本高的领域(如医疗影像、工业缺陷检测)。

(二)现存局限

  1. 推理速度较慢
    “生成-评估-进化”循环需要迭代5-10轮,单张图像处理时间约为0.8-1.2秒,比静态方法(0.2-0.3秒)慢3-4倍,难以满足自动驾驶、实时监控等“毫秒级响应”场景。

  2. 极端语言查询仍有短板
    面对超复杂逻辑查询(如“找出在桌子左边、比花瓶高、且旁边有黑色钢笔的白色杯子”),语义变异算子可能无法覆盖所有条件,导致分割准确率下降至60%左右。

  3. 提示池初始化依赖经验
    初始提示池的数量(10-20个)和类型需要人工设定,若初始化不当(如提示方向单一),会增加进化迭代次数,影响效率。

五、一句话总结

EVOL-SAM3通过“进化式推理框架”,在零样本推理分割任务中突破静态方法局限,不仅超越全监督SOTA,还具备跨领域适应性,虽在推理速度和极端查询处理上仍需优化,但为低成本落地复杂视觉任务提供了全新思路。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 11:18:38

uni-app 之 设置导航

uni-app 提供了一系列 API 来动态设置页面导航栏的样式和状态,帮助开发者创建更丰富的用户界面体验。 1. uni.setNavigationBarTitle(OBJECT) 动态设置当前页面的标题 参数说明 属性类型必填说明titlestring是页面标题successfunction否接口调用成功的回调函数f…

作者头像 李华
网站建设 2026/5/10 1:13:11

光刻胶用屏蔽剂

一、光刻胶对光屏蔽剂性能的具体详细要求光屏蔽剂的核心作用是控制光在光刻胶膜中的传播行为,其主要性能要求可归纳为以下几点:精确的光学特性(核心要求)在曝光波长下具有高吸收系数(α):这是最…

作者头像 李华
网站建设 2026/5/2 20:42:04

<span class=“js_title_inner“>1篇搞懂AI通识:大白话拆解核心点</span>

引言随着 AI 技术从实验室走向日常,“机器学习”“大模型”“Transformer”“MOE” 等词汇已不再是技术圈的专属。从智能聊天助手到电商推荐,从语音识别到自动驾驶,AI 正以多元形态融入生活。这篇文章按 “基础→核心→优化→落地→工具→术语…

作者头像 李华
网站建设 2026/4/28 7:19:08

which命令

which命令,查看所使用的一系列命令的程序文件存放在哪里语法:which要查找的命令find 用于查找指定的文件按文件名查找:find起始路径 -name"被查找文件名"支持通配符按文件大小查找:find 起始路径-size1-n[kMG]

作者头像 李华
网站建设 2026/5/4 16:13:07

<span class=“js_title_inner“>ZYNQ MPSOC VCU介绍</span>

1 什么是VCU?VCU 的全称是 Video Codec Unit,即视频编解码单元, Zynq UltraScale MPSoC 系列产品分为三种类型,分别是 CG 型器件、 EG 型器件和 EV 型器件, 其中只有 EV 型器件集成了 VCU。 VCU 适用于视频监控和网络视频连接应用…

作者头像 李华
网站建设 2026/4/25 18:35:56

企业级社区养老服务系统管理系统源码|SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】

摘要 随着人口老龄化进程的加快,社区养老服务需求日益增长,传统的养老服务模式已难以满足现代社会的需求。社区养老服务系统的数字化、智能化成为提升服务效率和质量的关键。企业级社区养老服务系统通过整合资源、优化管理流程,为老年人提供便…

作者头像 李华