CVEvolve零代码框架：降低科研数据处理门槛，推动科学发现智能化-平芜编程栈

科研数据处理困境与CVEvolve框架诞生

美国阿贡国家实验室（ANL）的研究团队在系统性分析过往基于人工智能的自动化工作后，开发出一款名为CVEvolve的零代码自主智能体框架，用于挖掘科研数据处理所需的算法。在当下，科研产出的数据体量庞大、结构松散且高度非结构化，科研数据处理成为解锁数据价值、揭示科研真相前最关键的一环。然而，领域科学家往往缺乏数据处理所需的专业技能，而技术专家又难以深入理解学科背景，这就产生了专业知识鸿沟。CVEvolve框架具备极强的通用能力，无需预设问题架构与固定流程模板，可闭环联动代码、数据、评价指标、检索记录及可视化结果等各类要素，支持计算机视觉、图像处理等可执行算法开发，不受单一建模方式约束，具备代码编写（运行）、效果评估、历史溯源、结果自查、策略化迭代优化全栈能力。

研究亮点与相关成果

相关成果以「CVEvolve: Autonomous Algorithm Discovery for Unstructured Scientific Data Processing」为题，收录于预印本平台arXiv。研究亮点包括：提出用于自主科研数据处理算法发掘的通用代理框架，专为非结构化问题而设计，无需预设问题框架与固定流程模板；CVEvolve引入一种长视野搜索架构，它将generate、tune、evolve机制与溯源感知状态管理、智能体驱动留存测试相结合，确保了框架灵活自主和成熟可用；CVEvolve在X射线荧光显微镜图像配准、布拉格峰检测和高能衍射显微镜图像分割多种任务上进行验证，证实其具备发掘实用算法和加速科学发现的能力。

专用验证数据集构建

本研究针对三类任务构建了专用验证数据集。荧光显微镜图像配准数据集在真实XRF图像基础上，人为施加平移偏移、泊松噪声、扫描抖动和模糊处理，模拟真实对焦漂移下的图像差异，图像采用对数刻度绘制，尺寸大小仅为10 - 30像素，数据规模为809对测试/参考图像，随机划分出10%作为预留测试集（holdout set），剩余90%全部用于算法迭代开发。布拉格峰值检测数据集来源于所有扫描点采集的衍射图像，之后均分为两组，各组图像按像素叠加合成两张图，一张用于算法研发阶段的效果评估，另一张作为预留测试（holdout set），两张图像中的布拉格峰均被人工标注。高能衍射显微图像分割数据集开发数据集包含5个图像及其手动创建的标签，预留测试集为2个样本。

LLM为核心智能体工具架构

整体架构上，CVEvolve是一款以大语言模型智能体为核心的自主搜索控制器，智能体能够借助工具生成、运行并评估候选方案，控制器则依据历史数据敲定后续探索方向。迭代策略借鉴自Pty - Chi - Evolve framework，涉及generate、tune和evolve三类操作步骤，并通过扩展的工具集和改进的状态管理适配更多任务。为了把控上下文篇幅并降低推算成本，每轮迭代都会启用全新上下文，仅保留系统提示词与本轮执行动作对应的任务提示词，不累积历史对话记录。在同一轮次中，generate和tune可由多个并行worker同时执行，让系统能够在更新对话记录前，同步探索多项新方案或是针对不同原始内容做出多轮优化调整。在每一轮结束后，agent提交的候选算法都会按照进化谱系（Lineage）分组，记录父子继承关系，保留优秀设计模式。候选采样架构借鉴自MAP - Elites算法，采用随机方式进行，针对tune和evolve两个步骤，CVEvolve采取随机候选采样，而非始终选择当前最优候选。

三大阶段工作流程

CVEvolve工作流程包括工作空间准备阶段、基线评估阶段和算法迭代研发阶段。工作空间准备阶段从搭建运行环境开始，将任务描述或用户提示的评价指标自动写成可执行的评估代码。基线评估阶段运行并测评已有的基准算法，为后续的对比工作提供基线。算法迭代研发阶段遵循generate、tune和evolve策略进行多轮循环搜索，其中generate负责广泛探索，多线程全新设计新算法；tune负责基础调优，对候选算法进行随机择优选取和参数优化；evolve负责迭代演进，对多个算法进行优势融合并生成新算法。此外，整体流程中还包含可选的修复轮次，用于修复无法运行的候选算法、每轮后独立留出测试、SQL搜索状态数据库，全程记录候选、指标、迭代轮次与进化谱系。

五大核心配套工具

五大核心配套工具分别为文件系统工具、环境管理和代码执行工具、图像查看工具、搜索状态工具和Web搜索工具。文件系统工具支持工作空间中列出、读取、写入、编辑、复制、移动和删除文件，允许agent在会话沙箱中编写候选代码、助手脚本和评估工具。环境管理和代码执行工具支持工作空间中安装或删除依赖项，以及执行Python脚本。图像查看工具支持浮点图像处理、高动态范围图像对数显示缩放、TIFF格式转PNG格式等调控功能，以便agent识别普通线性渲染下难以察觉的细微结构、明暗变化与异常问题。搜索状态工具支持agent设定核心指标，记录评估结果，核查历史数据，分析候选结果，并提交全新候选至结构化查询语言的检索记录中。Web搜索工具开放arXiv、Semantic Scholar和Tavily的访问权限，便于agent借助外部技术参考信息迭代算法研发。另外设计中还添加了多模态图像跟进中间件，用以弥补大语言模型接口无法直接传图的限制，具体是当工具返回图像路径后，自动将渲染后的图像作为跟进消息重新注入到对话当中。

核心底层执行架构

CVEvolve是基于LangGraph的agent应用实现的，运行时采用精简节点图，通过「消息接收 - 模型推理 - 工具调用 - 图像后置处理」四大核心流程进行处理。工具返回图片路径后，图像处理节点将其转为多模态观测数据，回传至模型，供下一轮推理使用。

3类科学图像处理场景验证

为了展示CVEvolve的实用效果和泛化能力，研究团队专门设置了3组具有现实意义的科学图像处理实验对其进行了验证，所有实验均采用Claude Opus 4.6完成。在荧光显微镜图像配准实验中，研究人员展示了CVEvolve在寻找X射线荧光显微镜（XRF）图像平移配准的鲁棒算法上的任务，经20轮搜索展示误差变化与性能特征，最终最优配准算法误差值为0.12，对比表现较好的brute - force error minimization，误差降低近8倍。在布拉格峰值检测实验中，本实验任务是寻找X射线衍射图像中布拉格峰检测算法，选择第5轮最优候选，可有效缓解误检情况，同时漏检数量也有所下降，各项指标相较基线均实现提升。在衍射图像分割实验中，实验采用加权交并比（IoU）指标，共进行40轮观察，最终筛选出最优候选算法，预测掩膜与真实基准轮廓具备较高契合度。