AEnvironment 从入门到精通：面向 Agentic RL 时代的万物互联环境系统，收藏这一篇就够了！-平芜编程栈

AEnvironment是 ASystem 专为 Agentic RL 打造的基础设施。它通过标准化的MCP****协议和高性能的ASandbox 运行时，将原本复杂的环境搭建从“写脚本”变成“调服务”。在蚂蚁内部，AEnvironment 与 AReaL 深度协同，打通了从“训练”到“部署”的全链路。我们希望通过 AEnvironment，为业界大规模 Agentic RL 开发提供更具生产力的基础设施。欢迎加入我们，打破环境壁垒，构建共赢的智能体生态。

前言

AEnvironment（简称 AEnv）是一个面向 Agentic RL（Reinforcement Learning，简称 RL）时代的统一环境平台，以 “Everything as Environment” 为核心理念。它通过拓展标准化的 MCP 协议和高性能的 ASandbox 运行时，为环境提供者、算法开发者和智能体开发者提供了一套开箱即用的基础设施，让开发者聚焦于智能体能力本身而非环境搭建的繁琐细节。

在蚂蚁内部，AEnvironment 作为 ASystem 的关键环境层技术，与 AReaL 强化学习框架深度协同，支撑了大规模 Agentic RL 训练和智能体服务部署，相关代码已在以下链接开源。

https://github.com/inclusionAI/AEnvironment

AEnvironment 核心亮点：

超大规模支撑：已支持万亿级模型训练，支持 Agentic-RL 在超长上下文下进行大规模并行采样。
Agent as Environment：支持将智能体封装为环境，实现多机协同与层级训练。
极速应用生成：预置工具链，支持小应用环境的快速构建与上线。
高质量数据合成：自动化生成大规模环境数据与任务轨迹，喂饱训练模型。
内置主流 Benchmark：开箱即用，集成行业权威评测基准。

我们希望通过 AEnvironment 的架构设计实践，推动将智能体环境从**“一次性脚本"到"标准化服务”**的转化，为业界大规模 Agentic RL 和智能体应用开发提供一些思路。

核心理念：

Everything as Environment

AEnv 将一切抽象为环境——无论是 Benchmark、工具集还是其他 Agent，都可以作为统一的环境接口被调用。因为 AEnv 把“可交互能力”统一收敛到同一种可编排、可部署、可复现的 Env 生命周期与 MCP 工具协议之上：对上层 Agent 来说只需要面对一致的 list_tools / call_tool / release 语义；对下层工程实现来说，AEnv 不关注具体的状态和动作空间，而是从工程化的角度提供完备的、可扩展的封装，统一Benchmark、工具集、Agent等各种应用场景。

这种统一抽象让能力可以像积木一样注册、组合与替换，并通过 EnvHub/调度器/多运行时（ASandbox/K8s）在生产与训练场景中规模化运行，同时保持隔离性与可追溯性（data source 挂载、会话录制、亚秒级启动等），从而把 Agentic RL 时代的“开发-评测-训练-部署”放到同一套工程接口里闭环起来。

核心亮点

（1）支持大规模Agentic-RL训练

在强化学习训练体系中，环境工程作为智能体进化的基石发挥着关键作用。在百灵大模型的训练过程中涉及到模型与上千个合成环境的多轮交互，总的交互次数和轨迹数量更是达到了数万级别，这对环境工程带来了两方面的挑战: 性能与稳定性，以及环境内容的多样性。AEnvironment 的系统设计瞄准了这一痛点，通过对底层 Sandbox 引擎的抽象和精心的编排设计为大规模强化学习训练中提供了可靠的环境工程解决方案。除此以外，通过提供内置的环境加上可自定义环境的 SDK，AEnvironment 在环境的多样性上提供了足够多的可能性，方便 Agent 快速集成训练，以下是 OpenAI Agent 集成 AEnvironment 在 tau2-bench 的数据集上运行的样例：

from typing import Any, Dict from agents import Agent as OpenAIAgent import os from aenv.core.environment import Environment # 1. Create and initialize environment env = Environment( env_name="tau2-env@1.0.0", environment_variables=dict( TAU2_DOMAIN="airline", TAU2_TASK_ID="1", ), ) await env.initialize() # 2. Create Agent agent = OpenAIAgent( name="Tau2 Agent", instructions=env.call_function("tau2_get_system_prompt", {}), tools=await env.list_openai_tools(), ) # 3. Run! while step < 100: step += 1 status = await env.call_function("tau2_get_status", {}) if status.get("done", False): break # Get last observation for agent input result = await Runner.run( agent, input = status.get("last_observation", "") ) # Sent message to user await env.call_function("tau2_send_message", {"message": result.final_output}) # 4. Get final reward reward = await env.call_reward({})

*完整可运行的代码见：

https://github.com/inclusionAI/AEnvironment/blob/main/aenv/examples/tau2_rl/agent.py

（2）支持小应用极速生成

以 AEnvironment 作为底座，利用 swe agent 快速搭建小应用极速生成程序，通过自然语言 Prompt 即可生成完整可运行的小应用，基于 AEnvironment 的 MCP 协议实现对话式交互和实时预览。

我们使用其他流行解决方案来完成相同一个的demo，其性能对比如下：

*详细示例代码请参考 mini-program 示例

（https://github.com/inclusionAI/AEnvironment/blob/main/aenv/examples/mini-program/README.md）。

（3）支持 Agent as Environment

可以将任何 Agent 无侵入地转化为环境，支持万级吞吐的大规模部署和按需调用，支持强化学习集成，支持 Multi-Agent 交互：

只需要轻松的两行代码，即可实现 Agent Deploy as Environment：

# Agent A 调用 Agent B 作为环境 async with Environment("agent-b@1.0.0") as agent_b: response = await agent_b.call_tool("chat", {"message": "Hello!"})

除此以外，与 AReal Agentic-RL 结合，将 Agent 部分部署于 AEnvironment，可快速实现 Multi-Agent RL (多智能体独立训练)。

（4）支持大规模环境和轨迹数据合成

为了进一步提升 Agent / LLM 在复杂真实场景下的表现能力，必须在大规模、多样化的环境样本上进行训练，而这对环境的可组合性与工程灵活性提出了更高要求。AEnv 提供了一套统一、低门槛的环境 API 抽象，让环境不再是训练流程中的瓶颈。通过将 AEnvironment 无缝集成进你现有的数据与训练流水线中，你可以以极低的工程成本，快速合成、复用并规模化生成任意数量的可用环境数据，从而持续为 Agent 的训练、评测与能力演进提供高质量输入。

合成环境过程：

环境定义

aenv init my-env

from aenv import register_tool @register_tool def search_code(query: str, path: str = ".") -> dict: """Search for code patterns in files.""" return{"matches": [...]}

环境发布

aenv init my-env && aenv build && aenv push

调用环境，生成轨迹

async with Environment("my-env@1.0.0") as env: result = await env.call_tool("search_code", {"query": "def main"})

（5）内置主流 Benchmark 环境

开箱即用的 Benchmark 环境，无需繁琐配置：

from aenv import Environment async with Environment("tau2-env@1.0.0") as env: tools = await env.list_tools() result = await env.call_tool("tau2_get_task_info", {})

已支持：

TAU2-Bench：
https://github.com/sierra-research/tau2-bench
SWE-Bench：
https://github.com/SWE-bench/SWE-bench
Terminal-Bench：
https://github.com/laude-institute/terminal-bench

架构设计

AEnvironment 采用分层架构设计，将系统分为开发面（Development Side）和流量面（Traffic Side）两个核心域，实现环境研发与运行时执行的解耦。

核心特点

架构设计：开发侧定义环境，流量侧执行运行时，基于 MCP 协议提供统一接口
可扩展性：支持扩展Kubernetes 等多种沙箱引擎
元数据驱动：环境配置存储在 EnvHub，运行时动态查询，支持环境版本管理和快速迭代

开发侧（Development Side）

负责环境定义和元数据管理：

AEnv CLI → EnvHub → Redis
开发者通过 CLI 推送环境配置到 EnvHub，元数据存储在 Redis

流量侧（Traffic Side）

负责运行时环境实例的创建和管理：

AEnv SDK → API Service → Controller/Other Sandbox Engine → Environment Sandbox
用户通过 SDK 创建环境实例，API Service 查询 EnvHub 获取元数据，通过沙箱引擎（如K8S）创建实例
工具调用通过 API Service 代理到沙箱内的 SDK，执行 MCP 工具并返回结果

未来展望

下个阶段，AEnvironment 会面向 AI Agent场景提供更丰富的环境，并持续优化和提升大规模环境交互的性能和稳定性。我们在下个版本会重点建设以下几个方面的能力：

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

最新面向自然科学领域机器学习与深度学习技术

AEnvironment 从入门到精通：面向 Agentic RL 时代的万物互联环境系统，收藏这一篇就够了！

如何学习大模型 AI ？

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

Nacos Namespaces未授权访问漏洞的防御策略

成本优化：用Llama Factory实现高效GPU资源利用

Nginx location 和 proxy_pass 配置详解

Nginx 常用安全头

比手动快10倍！自动化处理STEP7许可证问题

如何学习大模型 AI ？

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

最新面向自然科学领域机器学习与深度学习技术

Nacos Namespaces未授权访问漏洞的防御策略

成本优化：用Llama Factory实现高效GPU资源利用

Nginx location 和 proxy_pass 配置详解

Nginx 常用安全头

比手动快10倍！自动化处理STEP7许可证问题

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】