上周在部署一个产线缺陷检测系统时,遇到了一个经典难题:产线新增了三种罕见的缺陷类型,但手里只有十几张标注样本。模型在测试集上表现尚可,一上真实产线就频繁漏检。这场景太熟悉了——数据不够,特别是难例样本严重不足。传统方法要么靠人工大海捞针般筛查录像,要么盲目采集几万张图像再标注,成本高、效率低。这时候,该让强化学习(RL)和主动学习(AL)上场了。
一、问题本质:数据采集的“冷启动”困境
YOLOv11这类检测模型在数据充沛时表现强悍,但面对新场景、新类别时,常陷入“鸡生蛋蛋生鸡”的困境:要训好模型需要多样本,要采集样本又得先有个靠谱的模型。传统做法是人工随机采样标注,但90%的图片可能是背景或简单样本,对模型提升有限。我们需要的是让模型自己决定“接下来该学什么”。
强化学习在这里扮演的是“智能采样策略”的角色。其核心思想是:将数据采集过程建模为序列决策问题——模型根据当前状态(已标注数据、模型不确定性等)选择动作(下一批采集哪些数据),环境反馈(标注后的数据提升模型性能的程度)则作为奖励,持续优化采集策略。
二、搭建框架:RL + YOLOv11的闭环系统
一个可行的技术框架包含三个核心模块:
- 智能体(Agent):通常采用轻量级策略网络(如小型MLP),输入是当前模型的状态特征,输出是采样动作(例如选择图像区域或建议标注类型)。
- 环境(Environment):YOLOv11模型本身加上未标注数据池。每