KAT-Dev-32B与KAT-Coder震撼发布：借助规模化智能体强化学习，引领代码智能新突破-平芜编程栈

KAT-Dev-32B与KAT-Coder震撼发布：借助规模化智能体强化学习，引领代码智能新突破

【免费下载链接】KAT-Dev-FP8项目地址: https://ai.gitcode.com/hf_mirrors/Kwaipilot/KAT-Dev-FP8

今日，我们激动地宣布KAT系列两款开创性模型——KAT-Dev-32B与KAT-Coder正式问世。这两款模型分别代表了代码智能领域的普惠卓越性与极致性能，将为软件工程领域带来前所未有的智能化体验。

我们首先推出的是KAT-Dev-32B，这是一款全新的开源320亿参数软件工程项目模型。在权威的SWE-Bench Verified评测中，该模型以62.4%的问题解决率跻身全球开源模型前五，其性能可与同级别模型相媲美。与此同时，作为系列中性能最强的型号，KAT-Coder在相同评测中更是创下73.4%的优异成绩，彰显了其在代码智能领域的领先地位。

核心技术贡献

KAT-Dev-32B与KAT-Coder的优化历程涵盖多个关键训练阶段，包括中期训练阶段、监督微调（SFT）与强化微调（RFT）阶段，以及大规模智能体强化学习（RL）阶段。我们的核心技术贡献主要体现在以下方面：

中期训练阶段的价值发现

研究表明，在中期训练阶段强化工具使用能力、多轮交互能力和指令遵循能力，虽然可能不会立即在SWE-bench等公开排行榜上带来显著性能提升，但这种早期能力培养对后续的SFT和RL阶段具有决定性影响，为模型的长期性能提升奠定了坚实基础。

精细化的SFT与创新RFT流程

在SFT阶段，我们精心设计了八大任务类型和八大编程场景的训练数据，确保模型具备出色的泛化能力和综合技术实力。更具创新性的是，在进入RL阶段前，我们引入了独特的RFT阶段，通过人类工程师标注的"专家轨迹"作为训练指导，大幅提升了模型的学习效率和方向准确性。

智能体强化学习的规模化突破

实现智能体强化学习的规模化面临三大核心挑战：如何高效学习非线性轨迹历史、如何利用模型内在信号、如何构建可扩展的高通量基础设施。针对这些难题，我们创新性地提出了基于前缀缓存的对数概率计算优化、基于熵值的轨迹剪枝技术，以及名为SeamlessFlow的架构解决方案。

开放获取机制

开源社区赋能

KAT-Dev-32B已正式向社区开放，研究者可通过Hugging Face平台获取模型进行进一步研究与开发。

API访问通道

如需体验性能更强的KAT-Coder，用户只需在StreamLake平台申请API密钥，安装Claude Code即可立即启动编码工作。详细的技术报告也将在近期发布，为开发者提供全面的技术解析。

KAT模型的训练架构解析

中期训练的双阶段优化

我们采用名为"Mid-Train"的两阶段微调方法对预训练模型进行优化。第一阶段重点强化模型的"LLM作为智能体"综合能力，具体包括：

工具使用能力：在沙箱环境中构建了数千种工具的真实交互执行数据
多轮交互机制：创建了人类、助手与工具间长达数百轮的对话场景
专业编码知识注入：添加高质量、领域特定的编程知识体系
Git开发流程数据整合：融入大规模真实代码仓库的提交/PR数据
指令理解能力：收集30余种常见用户指令类型进行专项训练
通用推理能力强化：提升模型在通用领域的问题解决与推理能力

监督微调阶段的场景覆盖

第二阶段通过人类工程师标注的真实交付轨迹和合成轨迹数据，全面强化模型的端到端需求交付能力。训练数据涵盖：

八大核心任务类型：

功能模块实现
系统功能增强
软件缺陷修复
代码重构优化
性能调优提升
测试用例生成
代码理解分析
配置部署自动化

八大编程应用场景：

应用程序开发
UI/UX工程实现
数据科学与工程
机器学习与AI系统
数据库系统开发
基础设施构建
专业领域编程
安全工程实践

强化微调阶段的技术创新

在强化学习管道基础上，我们引入多源真实数据作为训练指导，显著提升了轨迹探索效率，从而增强了RL阶段的稳定性和训练效率。通过将绝对奖励机制转变为基于真实轨迹差异的评估体系，我们为RL训练提供了更稳定、更准确的奖励信号。同时，在轨迹生成过程中实时监督样本正确性，及时终止明显偏离真实轨迹的生成路径，大幅提升了RL训练的样本利用效率。

经过这三个训练阶段，模型具备了进入RL训练的"冷启动"能力，而强化微调（RFT）的引入则成功搭建了SFT与RL之间的能力桥梁：中期训练阶段传授模型各类基础技能，包括工具使用方法和用户意图理解；SFT阶段通过高质量轨迹数据让模型学习实际下游任务执行；RFT阶段则在模型开始"自由探索"前提供专家级的探索指导，确保后续RL阶段的稳定性和效率。

智能体强化学习的规模化技术

基于熵值的树状剪枝技术

即便采用上述优化措施，对完整轨迹树的所有令牌进行训练仍然计算成本高昂。因此，我们需要一种能够优先处理高价值节点的机制。

我们创新性地将轨迹压缩为前缀树结构，其中每个节点代表共享前缀，每条边对应令牌片段。在固定计算预算下，目标是保留最具价值的训练节点。通过聚合树中各节点的熵值信号及其被访问概率来评估节点信息量，按重要性排序扩展节点直至预算用尽。特别设计的启发式算法确保了工具调用、内存事件等结构重要区域的保留，同时维持局部上下文稳定性。这种基于熵值的剪枝技术大幅减少了冗余计算，保留了绝大部分有效训练信号，显著提升了吞吐量并降低了总体成本。

强化学习基础设施：SeamlessFlow架构

实现强化学习的规模化，关键在于将RL训练与智能体的复杂内部逻辑完全解耦，同时最大化异构计算架构的利用率。基于SeamlessFlow设计理念，我们在智能体与RL训练之间部署了专用于轨迹树管理的中间层，确保两者严格分离。此外，我们采用标签驱动的调度机制协调异构集群的任务分配，最大限度减少流水线空闲时间，维持高通量训练状态。

统一环境接口与RL数据构建

我们统一了不同RL执行环境的部署与评估接口，使新环境能够低成本无缝集成，为跨异构数据源和任务类型的RL训练规模化奠定了坚实基础。

针对软件工程场景，我们重点构建了三大核心组件：问题描述与对应分支代码的配对数据、可执行环境、可验证测试用例。通过收集开源仓库和部分内部仓库的拉取请求及相关问题，基于仓库星级、PR活跃度和问题内容筛选高质量数据，系统构建可执行环境镜像并为每个实例生成单元测试用例。除软件工程数据外，我们还融入了数学推理等可验证领域数据，进一步丰富了RL信号的多样性。

更为重要的是，除开源数据外，我们还收集并利用了来自真实工业系统的匿名企业级代码库进行RL训练。与仅基于GitHub等公共仓库的训练不同，这些大规模复杂代码库涵盖多编程语言和真实业务逻辑，使模型接触到更具挑战性的开发场景，提供了极高价值的RL训练素材。训练智能体解决此类实际工业问题不仅增强了学习鲁棒性，更使模型的编程能力扎根于真实的生产级环境。

通过这些技术创新，我们观察到模型在SWE-Bench Verified上的性能实现了显著提升。

使用KAT-Coder进行开发

KAT-Coder现已集成于Claude Code平台。用户只需在StreamLake万顷平台申请API密钥和端点ID，即可开始使用：

安装Claude Code：

npm install -g @anthropic-ai/claude-code

根据文档获取API密钥并创建推理端点：

# 将'ep-xxx-xxx'替换为您的万顷平台端点ID export ANTHROPIC_BASE_URL=https://wanqing.streamlakeapi.com/api/gateway/v1/endpoints/ep-xxx-xxx/claude-code-proxy # 将'WQ_API_KEY'替换为您的万顷平台API密钥 export ANTHROPIC_AUTH_TOKEN=WQ_API_KEY

完成上述配置后，您即可在Claude Code中使用KAT-Coder进行开发工作。

实际应用案例

🌟 Starry Sky：大型分布式系统的自动故障诊断与修复
🥷 Fruit Ninja：复杂业务逻辑的代码优化与重构
🔧 Code Refactor：遗留系统的自动化现代化改造

智能体强化学习规模化后的涌现行为

在智能体强化学习规模化过程中，我们观察到模型出现了显著的能力涌现：

观察到的行为变化

多轮交互显著减少：模型完成任务所需的交互轮次平均减少32%，远低于SFT阶段训练后的模型。

并行工具调用：经过RL阶段训练后，模型展现出同时调用多个工具的能力，打破了传统的顺序调用模式。

理论分析

我们推测这些能力涌现主要源于轨迹树结构引入的潜在优化目标：

效率偏好形成：在轨迹树中，较短路径（对应较少交互轮次）被更多轨迹共享，形成了模型学习高效解决方案的潜在优化目标。

并行化的自然选择：在树结构中，并行工具调用创造了更多分支可能性。这些分支在训练中被独立处理，使模型能够同时探索多种工具调用组合。此外，我们的长期熵剪枝机制保留了信息更丰富的树节点，而多工具调用节点通常具有更高熵值，这一过程逐步引导模型获得"批处理"能力。

未来发展方向

我们致力于不断突破代码智能的边界，未来将重点发展以下方向：

工具集成深化：与主流IDE、版本控制系统和开发流程深度整合，打造无缝编码体验。

多语言支持扩展：增强对新兴编程语言和框架的支持，确保全面的语言覆盖能力。

协同编码系统：探索多智能体协作系统，使KAT模型能够协同完成复杂软件项目，实现前所未有的开发协作模式。

多模态代码智能：集成视觉理解能力，处理架构图、UI设计、调试截图和文档图像，使开发过程更加直观高效。

通过这些创新，KAT系列模型将持续推动代码智能领域的发展，为软件工程带来更高效、更智能的解决方案。

【免费下载链接】KAT-Dev-FP8项目地址: https://ai.gitcode.com/hf_mirrors/Kwaipilot/KAT-Dev-FP8

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

KAT-Dev-32B与KAT-Coder震撼发布：借助规模化智能体强化学习，引领代码智能新突破