用6000条数据让AI终端代理超越万亿参数大模型-平芜编程栈

这项由南京大学、StepFun、ZODA、上海人工智能实验室及华中科技大学联合开展的研究，以预印本论文形式于2026年6月22日发布，论文编号为arXiv:2606.22883，研究成果以CLI-Universe为核心，聚焦于如何为终端代理型AI模型提供高质量的训练数据。

**当AI学"干活"却没有好教材**

AI大模型如今已经能做很多事情——写代码、回答问题、帮你规划行程。但有一类更进阶的能力，叫做"终端代理"，说白了就是让AI像一个真正的程序员或系统管理员一样，直接在电脑的命令行界面里操作：安装软件、调试程序、分析数据、破解安全漏洞……这不是简单地回答"怎么做"，而是真正地"动手做"。

这类能力的训练，需要大量真实可用的"练习题"。每道题不仅要有清晰的任务要求，还要有一个可以自动判断AI做对没做对的评测机制，甚至还要有一个标准答案过程供AI参考学习。问题在于，这样的高质量训练数据极度稀缺。

以往的做法，就像是把一堆旧教材扫描进教室，让学生凑合着学。研究人员会去GitHub上扒代码仓库，从文档里提取任务，把现成的错误日志改造成"调试练习"——这些材料本来就不是教学用的，强行当题目用，结果要么题目描述含糊，要么答案路径浅显，要么判分标准漏洞百出，AI从中得到的训练信号非常弱。

南京大学等团队面对这个困境，决定从源头重建这套"教材制作流水线"，他们将这套系统命名为CLI-Universe。

**一、像课程设计师一样，从零规划每一道题**

CLI-Universe的核心思路，与传统方式完全相反。传统方式是"有什么材料就出什么题"，而CLI-Universe是"先想清楚要考察什么能力，再去专门设计对应的题目"。这就像是一个优秀的教务主任，先写好课程大纲，再让老师按大纲备课，而不是让老师随手抓一本书就开始上课。

这套系统将每道题的设计锁定在四个维度上。第一个维度是"领域"，也就是这道题属于哪个技术范畴——是软件工程、调试、系统管理、文件操作、安全渗透、数据处理、数据查询、数据科学、科学计算、数学、优化、机器学习、模型训练，还是视频处理、网页接口、游戏或个人助手。第二个维度是"技能类型"，描述解题需要什么专项知识——是算法设计、数据处理、系统底层、配置管理、Shell脚本、数学推导、部署运维，还是密码学。第三个维度是"能力"，描述解题过程中AI需要展现哪种推理行为——比如主动探索环境、拆解子任务、从错误中恢复、遵守规格要求、维持长上下文记忆、长期规划、在多个约束间平衡，或是逆向分析。第四个维度是"工程支柱"，描述这道题的工程性质——是从零创造新功能、调试修复缺陷、系统底层编程、DevOps部署，还是在已有代码上迭代或重构。

系统从这四个维度的组合中随机采样，生成"锚点"，然后在这个锚点框架下头脑风暴出具体的题目候选。候选题目还会经过创意性、技术扎实性和可行性三方面打分，只有高分题目才能进入下一阶段。

**二、用真实技术资料"喂饱"每一道题**

光有框架还不够。一道只有抽象描述的题目，就像是一道只有"烤一个蛋糕"几个字的菜谱，根本无法落地操作。CLI-Universe的第二步，是让一个专门的"调研代理"去网上搜集与这道题相关的真实技术材料。

这个调研代理会去GitHub搜索相关代码仓库，去官方文档查阅接口规范，去开发者论坛寻找真实的报错案例，去教程网站找实际操作示例。它把这些真实材料里的工具用法、限制条件、已知坑点和输入输出规范，一点一点地融入题目描述中，把一道抽象的练习题磨炼成一道有血有肉的真实任务。

这个过程的效果是可以量化的。研究团队发现，经过调研代理深度打磨的题目，AI在解题时平均需要18.43次操作步骤，而未经打磨的题目只需5.34步——这说明打磨后的题目确实更难、更贴近真实工程复杂度。与此同时，AI的解题通过率从68.2%下降到了54.9%，降低了13.3个百分点。这听起来像是坏事，但实际上是好事：通过率降低，恰恰证明题目变难了、更有区分度了，而不是随随便便就能蒙混过关。

每道打磨好的题目最终会形成一份"蓝图"，包含三个核心部分：对外给AI看的任务说明书、仅供内部构造参考答案使用的提示信息，以及后续搭建测试环境所需的环境清单。蓝图完成后还要经过质量验证，确保任务描述足够清晰、任务设计可以被可靠测试。通过引入评分标准后，人类评审员的接受率从72%提升到91%，AI评审员从75%提升到93%，两者高度一致。

**三、把每道题装进独立的"练习沙盒"**

光有题目描述还远远不够。AI做题的时候，需要一个真实可操作的环境——有正确的文件放在正确的位置，有必要的软件包预先安装好，有配置好的服务在后台运行。这就像是考试不仅要发试卷，还要准备好实验室、试管和药品。

CLI-Universe的第三步，是根据蓝图里的环境清单，在Docker容器（可以理解为一个轻量级的隔离虚拟机）里搭建每道题的专属运行环境。

这个过程分两个子阶段。第一个子阶段是"资产准备"。系统会按照蓝图要求，去网上下载对应的代码仓库、数据集、配置文件、日志样本等原始材料。下载回来的材料往往不能直接用，需要做格式标准化、注入人工错误、调整参数设置，或者裁剪内容范围。如果网上找不到合适的现成材料，系统会直接合成——生成带有已知正确答案的受控变体数据，以及后续测试所需的验证元数据。

第二个子阶段是"环境组装"。所有资产被打包进Docker镜像，所有依赖库被固定版本安装，所有配置参数被精确设置，文件路径和组件间的引用关系被逐一核验。环境组装完成后，系统还会运行一轮"冒烟测试"：检查依赖是否安装成功、服务是否正常启动、文件结构是否符合预期、基本功能是否可以走通。通不过冒烟测试的环境直接丢弃。

**四、三重过滤，只保留真正有价值的题目**

即便环境搭好了，也不等于这道题就能用。CLI-Universe设置了三道质量关卡，把不够好的题目挡在门外。

第一道关卡是测试用例的构建。一个独立的"测试代理"，在不知道参考答案是什么的情况下，为这道题生成一套自动化测试脚本。测试脚本要覆盖任务的正确性、确定性和边界情况。测试代理会反复检查自己写的测试用例，对照一套质量评分标准（包括是否能准确判断任务完成、每次运行结果是否一致、是否覆盖了关键边界情况）来迭代打磨，直到测试套件稳定可靠。

为了验证这套测试机制的有效性，研究团队把同样的测试构建流程应用到Terminal-Bench 2（TB2）这个公开评测集的89道题上，发现用CLI-Universe方法生成的测试套件，与TB2官方测试套件的吻合度达到91%（若用AI作为语义匹配评审员，吻合度为88%）。这说明这套流程生成的测试，与人工精心设计的测试在质量上高度接近。

第二道关卡是参考答案的生成。另一个独立的"解题代理"，在拿到环境和内部提示信息后，生成一条完整的解题轨迹。这条轨迹只有在能通过所有测试用例的情况下，才会被保留为训练数据。

第三道关卡分为两层。第一层叫"提示依赖过滤"：系统让另一个代理在不给提示的情况下尝试这道题，只有那些"不给提示必然失败、给了提示才能成功"的题目才会留下来。这排除了那些太简单、随便做做就能过的题目——这类题对AI来说没有训练价值。第二层叫"失败到通过验证"：必须验证在初始环境下测试是失败的，在执行完参考解题轨迹后测试是通过的，形成一个清晰的"从不行到行"的状态转变。这避免了两种问题：一是测试太宽松，初始状态就能通过，说明这道题根本没有挑战性；二是参考解法是假的，其实根本没有解决问题。

经过从候选生成到最终验证的完整流水线，大约三分之二的候选题目被淘汰。具体来说，创意阶段会淘汰30%；蓝图验证淘汰14%；环境搭建失败淘汰14%；最终可执行验证再淘汰8.4%。最终只有33.6%的候选题目能够存活下来，被收录进数据集。

**五、用6000条数据，训练出超越千亿参数模型的AI**

研究团队用这套流水线生成了高质量题目和对应的解题轨迹，最终筛选出6000条成功轨迹构成CLI-Universe-6K数据集。这些轨迹由Kimi-K2.6（一个大型前沿模型）担任"教师"，由它在这些题目上操作，产生的成功操作过程就是训练数据。

用这6000条数据微调Qwen3系列模型（一个有8B、14B、32B三种规格的开源模型系列），结果令人瞩目。在Terminal-Bench 2.0（TB2.0）这个专门评测AI终端代理能力的权威基准测试上，32B规模的CLI-Universe模型得分达到33.4%。

这个数字意味着什么？在所有用开源数据训练的、参数量不超过320亿的模型中，CLI-Universe-32B排名第一——超过了同等规模的SkillSynth-32B（29.6分）、Nemotron-Terminal-32B（27.4分）和TerminalTraj-32B（22.0分）。更出乎意料的是，它还超过了一批参数量比它大十倍甚至百倍的模型：4800亿参数的Qwen3-Coder得了23.9分，而高达1万亿参数的Kimi-K2-Instruct得了27.8分，均不及CLI-Universe-32B的33.4分。与此同时，未经专项数据训练的Qwen3-32B原版在TB2.0上只有3.4分，经过CLI-Universe-6K微调后飙升到33.4分，提升了整整30个百分点。

性能提升随着模型规模单调递增：8B模型从2.5分提升到10.9分（+8.4），14B模型从4.0分提升到23.0分（+19.0），32B模型从3.4分提升到33.4分（+30.0）。这个趋势说明，更大的模型从同样的训练数据中提取出了更多价值，而且目前还没有到达饱和点。

当然，与最顶尖的商业模型相比仍有差距：Claude-Opus-4.5得分57.8，Gemini 3 Pro Preview得分56.9，GPT-5.2得分54.0，这些模型依然领先。

**六、拆解每个零件，看看哪块最关键**

研究团队对CLI-Universe的各个组成部分做了消融实验——通俗地说，就是轮流拆掉某个零件，看看机器还能不能正常运转，以此判断每个零件的价值。实验在Qwen3-32B上以1000道题的子集进行。

完整系统的得分是26.7分。拆掉"资产策略"（即精心准备的环境材料）后，分数跌至20.5分，损失了6.2分，这是三项中最大的损失，说明多样化、精心设计的环境是题目质量的核心驱动力。拆掉"查询评分标准"（即题目描述的质量控制机制）后，分数跌至23.3分，损失了3.4分，说明哪怕环境和测试都到位，题目问题本身的质量仍然是学习效果的天花板。拆掉"测试用例评分标准"（即测试套件的质量控制）后，分数跌至22.8分，损失了3.9分，说明高保真的自动化测试对于产生有效训练信号至关重要。三个组件各自独立地贡献了显著的性能，它们是互补关系，而非冗余关系。

在数据选择策略上，研究团队比较了两种方案：保留所有10000条轨迹（不论成功与否）对比只保留6000条成功轨迹。结果是，只保留成功轨迹的效果（33.4分）明显优于保留全部轨迹（28.2分），高出5.2分。这说明失败和不完整的操作轨迹会给训练引入噪声，在当前模型规模下，数据质量比数据数量更重要。

在教师模型的选择上，用Kimi-K2.6生成轨迹的效果（33.4分）略优于用DeepSeek-V4-Pro生成轨迹（31.2分），但差距不大，说明这套流水线对具体前沿模型的依赖度较低，换一个优质的教师模型也能得到接近的效果。

**七、能力有没有真正泛化到其他场景？**

一个合理的疑虑是：CLI-Universe的训练数据是否只让AI在Terminal-Bench这个特定评测集上刷了高分，在其他场景下仍然不行？研究团队在两个完全不同的评测集上进行了验证。

在BFCL v4（一个测试函数调用能力的评测集）上，CLI-Universe-32B以58.0分超过Qwen3-32B原版的46.7分，提升了11.3分；CLI-Universe-8B相比Qwen3-8B提升了7.0分。在VitaBench（一个测试多轮工具使用能力的评测集）上，CLI-Universe-32B以27.0分超过Qwen3-32B的15.4分，提升了11.6分；8B版本提升了1.1分。这两组数据表明，CLI-Universe训练出的能力——工具调度、环境状态追踪、多步规划——在不同的任务场景下都能发挥作用，而不是对某个特定评测集的过拟合。

在TB2.0的细粒度分类分析中，Qwen3-32B基线几乎在所有类别上都接近零分，而CLI-Universe-32B则在大多数类别上取得了实质性突破。提升最大的几个类别包括数据处理（+62.5分）、机器学习（+50.0分）、数据查询（+50.0分）、模型训练（+43.8分）、系统管理（+41.7分）和安全（+37.5分）。仍有挑战的类别是视频处理和游戏（在32B规模下均为零提升），这指向了未来数据扩展的方向。

**八、AI出错的时候，究竟在哪里出错？**

研究团队对Terminal-Bench 2上的失败案例做了深入分析，建立了一套包含9种具体失败模式的分类框架，归属于三大类：执行层失败、连贯性失败和验证层失败。

对于Claude-Opus-4.6、GPT-5.3-Codex、GLM-5、DeepSeek-V4-Pro这四个顶尖商业模型，失败的主要原因都集中在"验证层"，占比从47%到60%不等。这意味着这些顶尖模型在执行任务时往往能走到终点附近，但问题出在它们没有正确验证自己的工作成果就宣布完成了。具体来看，Claude-Opus-4.6更多表现为"弱验证"（做了检查但检查太粗糙，错误没被发现），占比36%；GPT-5.3-Codex则更多表现为"没有或错误地进行验证"（直接跳过验证步骤），占比47%。

CLI-Universe-32B的失败画像与顶尖模型截然不同。验证层失败降到了27%，而执行层失败上升为最大的失败类别，占比44%。其中最突出的具体失败模式是"步骤重复"，从顶尖模型的0%到7%飙升到23%。这说明CLI-Universe-32B更容易在任务进行中陷入循环——反复执行同一个操作却无法推进——而不是像顶尖模型那样做到七八成就草草结束并跳过验证。

研究团队还给出了每种失败模式的详细案例。比如"步骤重复"的案例中，AI需要从网上下载一个特定版本的源代码，但找不到下载链接，于是它反复执行同一条curl命令达165次，虽然在推理文字里写着"换个方法"，但实际执行的命令从未改变。"任务偏离"的案例中，AI需要写一个正则表达式配置文件，但它花了整整10轮都在用Python调试棋盘状态，目标文件一行都没有写。"推理与行动不一致"的案例中，AI在分析文字里三次写道"应该用逆向分析法"，但实际写出的攻击代码始终是暴力枚举的正向搜索，两者矛盾从头到尾没有解决。

归根结底，CLI-Universe做的事情，就是在AI学习"干活"这件事上，把题库从一堆拼凑的旧材料升级为了一套精心设计的专项训练课程。它的核心逻辑是：与其拿更多平庸的题目堆量，不如用严苛的设计流程和多重质量过滤，保证每一道题都真正有训练价值。实验结果证明，6000道这样的高质量题目，足以让一个320亿参数的模型，在某个专项能力上超越那些参数量比它大三十倍的对手。

这当然不是终点。与Claude、GPT等最顶尖商业模型之间的差距仍然存在。数据集只有6000条轨迹，扩大规模或许能进一步释放潜力。整条流水线依赖的LLM代理自身的能力上限，也决定了合成数据质量的天花板。此外，视频处理、游戏等类别目前仍是空白，说明任务覆盖范围还有扩展空间。有兴趣深入了解完整方法和实验细节的读者，可以通过arXiv编号2606.22883查阅完整论文。

Q&A

Q1：CLI-Universe和普通数据合成方法有什么区别？

A：普通方法是把现成的代码仓库、文档、错误日志"改造"成训练题目，这些材料本来不是为了教学设计的，质量难以保证。CLI-Universe反过来，先设计好要考察的能力维度，再通过研究代理搜集真实技术材料来充实题目，最后用多重可执行验证过滤掉低质量题目，整个流程会淘汰三分之二的候选，只留下真正有价值的部分。

Q2：CLI-Universe-6K的6000条数据是怎么得到的？

A：CLI-Universe流水线先生成了更多候选题目和测试环境，然后让Kimi-K2.6这个前沿大模型在这些题目上实际操作，记录它的完整操作过程作为轨迹。只有那些成功通过所有测试用例的轨迹才会被保留，最终精选出6000条成功轨迹构成训练数据集。

Q3：Terminal-Bench 2.0是什么评测基准？

A：Terminal-Bench 2.0是一个专门评测AI在命令行终端环境中完成复杂任务能力的权威基准测试，由人工精心设计，涵盖软件工程、调试、系统管理、安全分析、数据处理等多个专业领域，任务运行在隔离的Docker容器环境中，通过自动化测试判断AI是否真正完成了任务。

用6000条数据让AI终端代理超越万亿参数大模型

小程序制作平台有哪些怎么选好用的？

如何在老旧硬件上安装Windows 11：FlyOOBE完整技术指南与实战方案

鸿蒙 ArkTS 实战：Noise Recorder 从状态建模到交互闭环完整解析

MC-038 | 多模型协作：让不同模型各司其职

Java Web应用安全审计实战：从漏洞挖掘到权限提升的完整攻防路径

Ministral 3微调指南：面向X光片的视觉-语言协同诊断训练