Step-GUI 技术报告学习-平芜编程栈

1、介绍

如何高效地获取高质量的轨迹与知识数据，以提升智能体在目标领域内的性能？传统的标注方法存在主观性强和成本高昂的问题，限制了GUI智能体开发的可扩展性。
为应对这一挑战，我们引入了以校准步骤奖励系统（CSRS）为核心的自我进化训练流程。

通过轨迹级校准和LLM驱动的知识提取，CSRS将模型生成的轨迹转换为高质量的训练数据，与传统的步骤级注释相比，实现了>90%的注释准确率，成本降低了10-100倍。我们渐进式的三阶段训练范式协调了并行数据流，用于新颖的探索和战略性知识过滤，从而在多个训练轮次中不断提高模型能力。
随着GUI代理在视觉理解和自主任务执行方面获得增强的能力，两个根本性的挑战随之出现：跨异构设备的标准化通信以及处理敏感数据时的用户隐私保护。
问题：MCP怎么用，如何于skills结合用？
答案：低层MCP就是几个动作类型的调用
我们提出了GUI-MCP（图形用户界面-模型上下文协议），这是第一个专门为GUI自动化设计的MCP实现，它同时解决了标准化和隐私保护问题。
其分层双层架构结合了提供细粒度操作（例如，点击、滑动、文本输入）的底层MCP和将整个任务委托给本地部署的GUI专家模型（如Step-GUI-4B）的高层MCP。这种设计允许主LLM专注于高层规划，同时将例行的GUI操作卸载到本地模型。至关重要的是，GUI-MCP支持一种高隐私执行模式，其中原始屏幕截图和敏感状态保留在设备上，只有语义摘要流向外部LLM，这有效地保护了用户隐私，同时利用了基于云的推理能力。

代理是否能够可靠地处理构成真实世界移动使用的高频日常任务？为了解决这个空白，我们推出了AndroidDaily，这是一个明确基于对真实移动使用模式的实证分析的基准。AndroidDaily并没有追求最大的应用程序覆盖率，而是专注于普遍存在的日常场景（交通、购物、社交媒体、娱乐、本地服务），在这些场景中，代理部署具有直接的实际影响。该基准采用了一种双层评估策略：一个静态基准，包含3146个动作，用于高效的单步动作预测；以及一个端到端基准，包含235个任务，这些任务跨越多个维度（场景、任务类型、复杂性和模糊性），并在完全功能的环境中评估自主任务完成情况。Step-GUI-8B在AndroidDaily上表现出强大的性能，这突显了其当前的能力以及在实际部署场景中仍然存在的挑战。

2. 步骤GUI

2.1. 数据

我们没有训练专门的规划器或领域受限的策略模型，而是开发了一个能够理解各种视觉环境、遵循复杂协议并执行多步骤任务的多模态基础模型。

为了弥合通用预训练模型和特定于智能体的训练之间的差距，我们引入了一个中间训练阶段，该阶段使模型具备基础的智能体能力。数据包括：通用多模态与知识数据、高质量文本和多模态数据（190万）、知识密集型数据（2M）、基础数据 (270万)、行动对齐数据（17万）、轨迹数据（4M）、特定于环境的数据（420K）。通过这种平衡的数据混合，中间训练模型巩固了广泛的世界知识，获得了必要的视觉能力，学会了解析代理风格的格式，并形成了初步的指令到行动的映射。

备注：阶跃的这个基础能力可用复用，至少没有降低通用能力，4B达到了8B的效果.

2.1.2. 冷启动数据

在中间训练模型的基本代理能力（包括视觉基础、代理风格格式理解和初始指令到动作的映射）的基础上，冷启动阶段侧重于知识注入和执行细化。

代理失败通常源于知识缺陷，而不是行为示例不足。因此，我们采用了一种错误驱动的知识注入策略：诊断执行失败，并将缺失的知识转换为 VQA 对，以直接针对模型的弱点。轨迹数据充当行为支架，使输出与代理格式对齐，而丰富的知识库则能够实现稳健的泛化。

问题：如何构建VQA对？

冷启动数据混合（约 167 万个样本）

1）知识数据（864K，52%）：通过分析轨迹展开中的执行错误构建。当模型在轨迹执行期间失败时，我们识别出潜在的缺失知识（例如，UI语义、应用程序行为、领域事实），并将其转换为VQA格式的样本。这种有针对性的注入直接解决了模型的知识盲点，而不是提供通用的世界知识。

问题：如何编写提示词，识别出里面的语义、应用程序的行为、领域事实

2）轨迹数据（404K，24%）：高质量的多步交互序列，用作行为演示

3）通用多模态数据（28.4万，17%）：高质量样本，以保留广泛的多模态推理能力；

4）基础数据（12.2万，7%）：为基于GUI的交互而精心策划的本地化样本。

备注：后面这两部分数据可以不要，我们不需要保留通用能力。

表1展示了训练中期和冷启动阶段的数据构成。虽然训练中期采用了大规模混合数据（约1120万个样本），涵盖了包括动作对齐和特定环境数据在内的各种数据类型，但冷启动采用了更集中的混合数据（约167万个样本），其中知识数据的比例更高（52%）

2.1.3. Grounding基础数据

虽然接地传统上被认为是感知-语言对齐问题，但这种表述在GUI领域变得不足。这一观察促使我们转变GUI接地的构建和训练方式。这需要满足三个基本要求：

1）超越表象的功能语义。模型必须学习齿轮图标表示设置，垃圾桶图标表示删除，而不是依赖于表面上的视觉相似性。

2）潜在世界状态。模型应维护一个潜在的表示，包括什么是可见的，什么是可操作的，以及在候选动作下界面状态如何演变。

3）对人机交互惯例的世界知识。掌握人机交互惯例、布局和符号意义，能够对未见或部分观察到的界面进行推理。

备注：需要对收集的爬虫grounding数据进行修改。

GUI 接地数据集面临一个根本性的挑战：标注经常包含错误（噪声），并且未能准确对应于它们所描述的界面元素的语义含义（未对齐）。直接扩展此类数据通常会放大噪声，而不是提高泛化能力。为了解决这个问题，我们设计了一个迭代的接地-清理流水线，该流水线使用模型反馈逐步过滤、纠正和改进监督。

备注：目前我们也遇到了这方面的问题。

1. 初始基础训练。我们首先在原始开源基础数据、通用多模态数据和知识增强型注释上训练一个初始模型，以建立基本的感知对齐。

2. 基于复杂性评分的通过率标记。训练后的模型对每个样本执行多次独立的 rollout。每个样本都会收到一个反映监督质量的通过率标签。此外，基于 LLM 的复杂性评分器将任务分为简单的定位、功能理解和意图对齐级别，从而将失败从注释噪声与真正复杂的语义中分离出来。

备注：编写提示词作为复杂性评分器。区分哪些是复杂语义（可用的），哪些是噪声（简单，但是错误的）。

3. 基于课程的可靠数据训练。高通过率样本作为可靠的监督，并按复杂性组织，用于难度感知的课程训练：简单的定位任务稳定早期基础，而功能和意图对齐任务通过课程SFT和强化学习逐步引入。

4. 早期排除噪声案例。将混合了噪声标注和真正困难案例的零通过率样本从早期训练中排除，以保持学习信号的质量。

备注：排除依据，零通过率的样本

5. 难例精炼。排除的样本在后续阶段会被重新审视：失败的执行会被逐步知识重写并进行丰富的注释，然后作为高质量的监督重新引入。

备注：复杂语义样本，后面会被知识重写，并进行丰富的注释，并引入。

2.1.4. 轨迹数据

为了通过数据飞轮迭代实现模型的持续改进，我们提出了校准步奖励系统（CSRS），这是一种新颖的数据处理框架，可以将模型生成的轨迹转换为高质量、多维的训练数据。

CSRS充当“Rollout → CSRS → Training”循环中的关键桥梁，确保数据可靠性的同时，最大限度地从每个轨迹中提取信息。CSRS引入了两种协同机制，解决了奖励系统设计中的基本挑战（见图2)）：（1）轨迹级校准，提供高置信度的奖励信号；（2）LLM驱动的数据提取，生成卓越的思维链推理。与传统的步级标注方法（容易受到主观性和高成本的影响）不同，我们的轨迹级验证通过关注客观可验证的任务结果，实现了>90%的准确率，且标注成本降低了10-100倍。

系统架构。如图2所示，CSRS由两个主要组件构成。

1、校准层采用验证者或人工标注员在轨迹层面执行二元成功/失败验证，从而建立可靠的质量锚点。数据提取模块由复杂的思维模型驱动，生成七类训练数据：（1）进度跟踪，（2）状态总结，（3）效果预测，（4）自我反思，（5）状态验证，（6）意图执行，以及（7）行动预测。这种设计确保所有生成的细粒度数据都以高置信度的轨迹层面标签为锚定。

问题：如何实现轨迹级校准？

两种方式，轨迹成功或失败两个标签。

问题：如何生成卓越的思维链推理？7类训练数据

借助于更大参数的思考模型驱动标注？依赖于以上轨迹标注是否正确。如何设计这7类提示词？具体的任务是什么。

2、选择性学习策略。CSRS 能够智能地处理不同质量的轨迹。对于成功的轨迹，提取所有七种数据类型，包括知识增强（类别 1-5）和动作预测（类别 6-7）。对于失败的轨迹，仅保留与知识相关的数据（类别 1-6），遵循“从失败中学习知识，但不学习错误行为”的原则。这种选择性策略最大限度地提高了数据利用率，同时防止了错误行为的传播。

LLM生成的知识优越性。CSRS的一个关键优势在于利用强大的LLM自动生成训练数据。与人工标注员相比，LLM产生：（i）显著更丰富的思维链推理，具有详细的多步骤分析；（ii）所有样本质量一致，没有个体差异；（iii）关于GUI操作和应用程序功能的全面领域知识；以及（iv）通过自动化降低80-90%的成本。例如，当人工标注员可能简单地标注“点击中心按钮”时，CSRS会生成详细的推理：“文本已被选中。下一步是应用居中对齐格式。我可以在工具栏中看到对齐按钮，我将点击“居中对齐”按钮。点击后，标题应移动到文档的中心。”

备注：这一段含有各类数据？也就是说所有数据都放到think过程中？但错误数据没有action动作？这一段详细的模板式思考过程非常值得参考。

CSRS 能够通过迭代训练实现模型的持续改进。在第 𝑁 次迭代中，模型 𝑀𝑛 生成 rollout 轨迹，这些轨迹经过 CSRS 处理以产生高质量的训练数据，从而产生改进后的模型 𝑀𝑛+1。

备注：相同的数据集下，不断的rollout，不断的过滤训练。这里不需要更多数据，只要不断自我迭代即可。这种自我增强的循环驱动了渐进式的性能提升：从最初 30-40% 的成功率到多次迭代后超过 85% 的专家级性能。

（优势 A）来自验证器或人工标注的轨迹级别验证确保了可靠的奖励信号，减少了学习过程中的噪声并提高了训练稳定性。（优势 B）强大的思维模型生成的卓越推理提供了丰富的、逐步的解释，增强了模型的理解和泛化能力。这种“粗粒度高置信度标签 + 细粒度高质量内容”的范例代表了对传统步骤级别标注方法的重大改进，将 CSRS 确立为构建高性能 GUI 代理的关键基础设施。

备注：我们缺乏细粒度高质量内容。

2.2. 训练

为了弥合通用多模态能力和专家级 GUI 代理之间的差距，我们提出了一种渐进式三阶段训练范式：中期训练、冷启动微调和基于可验证奖励的强化学习（RLVR）。

备注：CSRS应用于冷启动微调还是强化阶段？

自进化训练管道，具有闭环数据优化。该管道由三个渐进式训练阶段（中期训练、冷启动和 RLVR）和两个并行数据流组成。生成数据流：策略模型通过任务生成器生成新的轨迹，这些轨迹通过 CSRS 进行验证，从而为下一轮训练生成高质量的知识数据和轨迹数据。优化数据流：现有轨迹数据通过自蒸馏和拒绝采样进行双路径过滤。这种迭代循环不断提高跨轮的数据质量和模型能力。

备注：如何实现自蒸馏？

生成数据流。当前的策略模型（第n轮）在Rollout系统中交互式地执行来自任务生成器的新生成的任务。在执行过程中，该模型生成原始轨迹数据，捕捉其与GUI环境逐步交互的过程。这些原始轨迹随后由CSRS处理，CSRS验证动作的正确性并分配校准后的奖励，以过滤和提炼数据为两个高质量类别：（1）包含提炼的任务解决见解和推理模式的知识数据，以及（2）捕捉已验证的完整多步执行路径的轨迹数据。这些高质量的合成数据被导入到下一轮（n + 1）的冷启动和RLVR阶段，使模型能够从其自身的探索中学习。

备注：每一轮包括采样->CSRS验证->冷启动+RLVR

精炼数据流。与此同时，现有的轨迹数据经过一个双路径过滤机制，该机制结合了自蒸馏和拒绝采样。此过程将数据分为两类：（1）接受集——稳定的、高置信度的样本，能够持续通过质量阈值，被循环利用到中期训练和冷启动中，以加强基础能力；（2）拒绝集——接近决策边界的具有挑战性的样本，暴露了模型的弱点，专门被路由到冷启动中，以进行有针对性的能力提升。

备注：每一轮都会做中期训练吗？拒绝集不会放入RLVR？只有有正确有错的放入RLVR

2.2.3. 基于可验证奖励的强化学习

使用带KL散度的GRPO

细粒度混合奖励规范。我们通过整合三个不同的信号类别来构建一个复合奖励函数 R(o, s)：可验证的空间度量、动作语义有效性和基于模型的性能评估。

奖励：

1）空间几何稠密奖励（坐标点、边界）

2）动作-语义混合奖励。动作类型（二元稀疏奖励）。自适应价值建模：动作参数的奖励因类型而异。对于基于轨迹的向量（例如，SLIDE），我们计算预测向量v𝑝𝑟𝑒𝑑和真实值v𝑔𝑡之间的余弦相似度，将对齐映射到密集的[NT2][[/[NT2]0，1]区间。对于需要信息检索的语义动作（例如，INFO、TYPE），我们利用外部LLM来验证内容，返回标量分数s ∈ [0, 1]。

备注：这里使用LLM的，可用RLPR替代。滑动方向和长度使用余弦相似度的必要性？

3) 软能力奖励（LLM-作为裁判）。对于确定性规则不适用的抽象性质，我们采用 LLM-作为裁判机制。该模块基于意图一致性、流畅性和推理质量评估生成的轨迹，提供补充性的软信号，使策略与人类偏好的交互模式保持一致。

备注：有哪些动作类型需要这个奖励？

具有后见之明的半在线探索。由于奖励稀疏，在长程GUI任务中的探索是出了名的困难。为了缓解这个问题，我们引入了一种半在线训练策略。对于未能完成任务的rollout组，我们将Ground-Truth Hints注入到提示中，以在第二次传递期间引导模型通过正确的推理路径。这使得模型能够体验到先前超出其能力范围的高奖励轨迹，从而有效地将“失败的探索”转化为具有高优势分数的“引导成功的样本”。

备注：这个思路值得参考，但我们的步数比较少，也许没必要。另外加入了提示词对于当前步骤有利吗？

稳定性和效率增强。为了确保稳定的收敛并最大化数据效用，我们整合了几种算法增强：1) Dynamic Exploration (𝜀ℎ𝑖𝑔ℎ): 我们引入了一个动态参数𝜀ℎ𝑖𝑔ℎ 来调节裁剪范围，为低概率动作提供更大的灵活性。这扩大了探索空间，而不会破坏策略更新的稳定性。2)通过重要性采样进行样本重用：正如效率模块中所述，数据生成在计算上是昂贵的。我们采用重要性采样来重用收集到的轨迹，以进行多次梯度更新。策略在每次 rollout 批次中更新 𝐾 次迭代。重要性采样比率 𝑟𝑡 (𝜃) = 𝜋𝜋𝑜𝜃𝑙𝑑((𝑜𝑜𝑡𝑡|𝑞|𝑞,𝑜,𝑜<<𝑡𝑡)) 解释了当前演化策略和数据收集策略之间的分布偏移，在保持信任域约束的同时，显著提高了样本效率。

备注：DAPO?

梯度裁剪的梯度保持。不含D𝐾𝐿的方程(1)的梯度可以表示为：