插件化多租户AI Agent运行时WhiteAgent：架构解析与生产部署指南-平芜编程栈

1. 项目概述：一个插件驱动的多租户AI Agent运行时

最近在折腾AI Agent的私有化部署，发现了一个挺有意思的开源项目——WhiteAgent。简单来说，它是一个用Go语言写的、插件驱动的多租户AI Agent运行时。最吸引我的地方是，它把整个系统的复杂性都封装进了一个单一的可执行二进制文件里，然后通过动态加载的.so插件来扩展功能。这种设计理念，让我想起了早期的Nginx或者现在的Terraform，核心足够精简，生态靠插件来繁荣。

这个项目解决的核心痛点，其实是我们很多中小团队在尝试AI应用落地时都会遇到的：既要功能强大、灵活可扩展，又要部署简单、维护成本低。WhiteAgent给出的答案是“插件化”和“多租户”。你可以把它理解为一个AI Agent的“操作系统”，不同的租户（比如公司内部的不同部门、不同的外部客户）可以在同一个运行时实例里，拥有各自完全独立的AI Agent、用户体系和数据空间，彼此之间互不干扰。这对于做SaaS服务或者企业内部需要隔离不同项目组的场景来说，简直是刚需。

它的功能栈覆盖得也比较全。后端支持对接多个大语言模型（LLM），前端可以通过适配器连接像Telegram、Microsoft Teams这样的聊天平台，中间还提供了一套工具集（比如网页搜索、执行Shell命令、访问文件、定时任务等）和一个Docker沙箱环境，让AI Agent能安全地执行代码。所有这些组件，理论上都可以通过插件来替换或增强。我花了一段时间研究它的源码和部署实践，这篇文章就来详细拆解一下它的架构设计、核心玩法以及我在实操中踩过的一些坑。

2. 核心架构与设计哲学解析

2.1 插件化：一切皆可插拔的基石

WhiteAgent最核心的设计思想就是插件化。它不是简单地把一些功能做成可配置，而是从底层就将系统拆分为若干个明确的插件接口（Plugin Interface）。目前主要定义了五大类插件：

LLM后端插件：负责与具体的大模型API进行通信，比如OpenAI的GPT系列、Anthropic的Claude，或者是本地部署的Llama、Qwen等。插件需要实现模型调用、流式响应、Token计数等标准接口。
聊天通道插件：作为AI Agent与用户交互的“前端”。项目内置了Telegram和Microsoft Teams的适配器。理论上，你可以写一个插件来支持Slack、Discord、飞书、钉钉，甚至是自定义的WebSocket接口。
工具插件：为AI Agent提供“手脚”。内置工具已经比较丰富，包括网络搜索（DuckDuckGo）、Shell命令执行、内存存储与检索、计划任务、文件读写等。你可以开发新工具，比如连接公司内部数据库、调用特定的第三方API。
沙箱插件：为工具（尤其是代码执行类工具）提供安全的隔离运行环境。默认实现是基于Docker的沙箱，这也是安全性的关键。
中间件插件：在请求处理链路上插入自定义逻辑，比如日志记录、权限校验、请求/响应的修改、速率限制等。这为系统监控和定制化管控提供了入口。

这种架构带来的最大好处是解耦和可扩展性。假设明天有一个新的、性能更强的本地模型出来了，你不需要动WhiteAgent的核心代码，只需要为这个新模型实现一个LLM插件，编译成.so文件，放到指定目录，重启服务（甚至支持热加载）就能用上。团队里不同技能的开发者可以并行开发不同插件，只要遵守接口契约即可。

注意：插件使用Go的CGO和plugin包实现，这意味着插件必须用相同版本的Go、相同的依赖环境编译，才能被主程序加载。这在管理插件版本和部署时是一个需要仔细协调的点。

2.2 多租户模型：数据与执行的隔离之道

“多租户”是WhiteAgent另一个关键特性。它并不是一个简单的多用户系统，而是为每个租户提供了一套完整的、逻辑隔离的虚拟环境。这套模型主要包含以下几个实体：

租户（Tenant）：最高级别的隔离单元。每个租户拥有独立的配置、数据库命名空间（或表前缀）和资源配额。可以把它想象成一个独立的“公司”或“项目空间”。
代理（Agent）：隶属于某个租户的AI助手实例。每个Agent有自己的系统提示词（System Prompt）、启用的工具列表、绑定的LLM后端以及对话记忆策略。一个租户下可以有多个Agent，服务于不同目的（比如一个客服Agent，一个编程助手Agent）。
用户（User）：在某个租户下与Agent交互的终端用户。用户身份通常由聊天平台（如Telegram的用户ID）决定，WhiteAgent会将其映射到内部的用户记录，用于追踪对话历史和权限。
邀请码（Invite Code）：用于控制用户加入特定租户的权限。可以设置使用次数、过期时间等，这是实现封闭或半封闭社区的基础。
工作空间（Workspace）：一个更细粒度的隔离概念。我理解它类似于一个“会话组”或“项目组”，在一个租户内，可以将特定的用户和Agent关联到一个工作空间，共享该空间内的对话历史、文件等上下文。这对于团队协作场景非常有用。

这种层级化的设计，使得WhiteAgent非常适合作为B2B AI Agent平台的基础设施。服务提供商可以部署一套WhiteAgent实例，然后为每个企业客户创建一个租户。客户在自己的租户内管理他们的Agent和用户，数据完全隔离，互不可见。运维方只需要维护一套服务，大大降低了成本。

2.3 安全沙箱：让AI安全地“动手”

AI Agent能执行代码是一把双刃剑，功能强大的同时带来了巨大的安全风险。WhiteAgent通过Docker沙箱来解决这个问题。当Agent通过工具（如shell工具）请求执行一段代码或命令时，这个请求不会直接在宿主机上运行。

流程是这样的：

请求被路由到沙箱插件。
插件会启动一个全新的、经过加固的Docker容器（或复用某个容器）。
将待执行的代码和必要的上下文（如文件）放入容器内。
在容器内以非root用户身份执行代码。
捕获执行结果（标准输出、标准错误、退出码）和可能产生的文件变化。
销毁容器（或根据策略保留一段时间）。

这个沙箱默认进行了多项安全加固，比如禁用容器内的特权操作、限制网络访问（通常只允许访问公网，隔离内网）、设置资源限制（CPU、内存）。项目文档里也坦诚地讨论了安全权衡：默认的DinD（Docker in Docker）部署模式提供了较强的隔离，但需要特权模式运行Docker，增加了攻击面；而裸机部署则依赖Linux的命名空间和cgroup进行隔离，配置更复杂。

实操心得：在生产环境使用沙箱功能，务必仔细阅读项目的security-model.md文档。你需要根据自身的安全要求，评估是接受DinD的风险，还是投入精力配置更安全的裸机隔离方案。一个折中的做法是，将WhiteAgent部署在一个专用的、资源受限的虚拟机或Kubernetes节点上，即使DinD被突破，影响范围也有限。

3. 从零开始部署与配置实战

3.1 环境准备与快速启动

WhiteAgent的部署给了两种主流方案：DinD（Docker-in-Docker）和裸机（Bare Metal）。DinD是官方默认的、开箱即用的方案，适合快速体验和开发；裸机方案则追求更高的安全性和性能，适合生产环境。这里我们先从最简单的DinD开始。

前提条件：

一台Linux服务器（推荐Ubuntu 22.04 LTS或更新版本）。
已安装Docker和Docker Compose（v2以上）。
（可选）一个域名和SSL证书，如果你希望通过HTTPS访问管理接口或WebSocket。

步骤一：获取代码与基础配置

# 克隆仓库 git clone https://github.com/whiteagent-org/whiteagent.git cd whiteagent # 复制并编辑配置文件 cp config.example.json data/config.json cp .env.example .env

现在你有两个关键文件：

data/config.json: 主配置文件，定义服务器行为、插件路径、数据库连接等。
.env: 环境变量文件，主要用于存放各类API密钥等敏感信息。

步骤二：配置核心参数编辑data/config.json，以下几个部分是必须关注的：

{ "server": { "host": "0.0.0.0", "port": 8080, "jwt_secret": "请替换为一个强随机字符串" // 用于生成认证Token }, "database": { "driver": "sqlite3", "dsn": "file:data/whiteagent.db?_fk=true" // 默认使用SQLite，生产环境可考虑PostgreSQL }, "plugins": { "dir": "./plugins" // 插件存放目录 } }

编辑.env文件，填入你的LLM API密钥。这是Agent的“大脑”，必须配置。

# .env 示例 OPENAI_API_KEY=sk-your-openai-api-key-here # ANTHROPIC_API_KEY=your-claude-key # 其他模型密钥...

步骤三：生成Docker TLS证书（DinD安全所需）由于DinD模式下，WhiteAgent容器内的Docker客户端需要与宿主机的Docker守护进程通信，为了安全，需要启用TLS加密。项目提供了一个便捷脚本：

make dind-certs

这个命令会在项目根目录生成一个certs/文件夹，里面包含CA证书、服务器和客户端证书。这些证书会被挂载到Docker Compose定义的容器中。

步骤四：构建并启动服务

docker compose up -d --build

这个命令会执行以下操作：

构建WhiteAgent主程序的Docker镜像。
构建或拉取相关依赖服务的镜像（如用于网络搜索的SearXNG）。
以守护进程模式启动所有服务。

使用docker compose logs -f whiteagent可以查看实时日志，确认服务启动无误。如果看到类似“Server started on [::]:8080”的日志，说明核心服务已经跑起来了。

3.2 使用CLI进行租户与代理管理

服务启动后，我们首先需要通过CLI工具来创建租户和Agent。WhiteAgent的CLI可以直接在Docker容器内执行。

进入容器并初始化管理员租户：

# 进入正在运行的whiteagent容器 docker compose exec whiteagent /bin/sh # 在容器内部，使用whiteagent命令行工具 # 1. 创建一个租户（例如叫“acme-corp”） ./bin/whiteagent tenant create --name "acme-corp" --slug acme # 2. 为该租户创建一个邀请码，用于后续添加用户 ./bin/whiteagent invite create --tenant acme --max-uses 10 --expires-in 720h # 有效期30天 # 3. 在acme租户下创建一个Agent（例如叫“helper”） ./bin/whiteagent agent create --tenant acme --name "Helper" --slug helper --llm openai:gpt-4o --system-prompt "你是一个乐于助人的助手。"

这里有几个关键参数需要解释：

--tenant: 指定租户的唯一标识符（slug）。
--llm: 指定该Agent使用的LLM后端，格式为插件名:模型名。例如openai:gpt-4o表示使用openai这个LLM插件，调用GPT-4o模型。这要求你已经在配置中正确配置了OpenAI的API密钥。
--system-prompt: 系统的角色设定，它决定了Agent的“性格”和核心行为准则，非常重要。

CLI常用命令速查表：

功能	命令示例	说明
租户管理	`tenant list`	列出所有租户
`tenant create --name X --slug y`	创建新租户
代理管理	`agent list --tenant acme`	列出某租户下所有Agent
`agent create ...`(如上)	创建Agent
`agent update --tenant acme --slug helper --system-prompt “新提示词”`	更新Agent配置
用户管理	`user list --tenant acme`	列出租户下所有用户
邀请码管理	`invite list --tenant acme`	列出所有邀请码
`invite create ...`(如上)	创建邀请码
`invite revoke <code>`	撤销邀请码
工作空间管理	`workspace create --tenant acme --name “Project Alpha”`	创建工作空间

注意事项：CLI操作大部分都需要指定--tenant参数，因为所有实体都是隶属于租户的。忘记指定租户是最常见的错误之一。另外，system-prompt是控制Agent行为的关键，需要精心设计，后续可以随时通过agent update命令调整。

3.3 连接聊天平台：以Telegram为例

现在我们已经有了一个运行中的Agent，接下来需要让用户能跟它对话。我们以Telegram为例，演示如何连接。

步骤一：创建Telegram Bot

在Telegram中搜索@BotFather并开始对话。
发送/newbot指令，按照提示设置机器人的名字（如WhiteAgent Helper）和用户名（必须以bot结尾，如whiteagent_helper_bot）。
创建成功后，BotFather会给你一个HTTP API Token，形如1234567890:ABCdefGhIJKlmNoPQRsTUVwxyZ。妥善保存这个Token。

步骤二：配置WhiteAgent的Telegram插件编辑data/config.json，找到或添加telegram配置段：

{ "telegram": { "enabled": true, "token": "$TELEGRAM_BOT_TOKEN", // 通过环境变量引用，更安全 "webhook_url": "https://your-domain.com/webhooks/telegram", // 如果你配置了Webhook "polling": true // 或者使用轮询模式，适合没有公网IP的开发环境 } }

然后在.env文件中添加对应的环境变量：

TELEGRAM_BOT_TOKEN=1234567890:ABCdefGhIJKlmNoPQRsTUVwxyZ

步骤三：关联Bot与租户/AgentTelegram Bot本身不知道应该连接到哪个租户的哪个Agent。我们需要通过CLI创建一个“绑定”。

# 在容器内执行 ./bin/whiteagent channel link telegram --tenant acme --agent helper --bot-token $TELEGRAM_BOT_TOKEN

这个命令会告诉WhiteAgent：当收到来自这个特定Token的Telegram Bot消息时，将其路由到acme租户下的helper这个Agent进行处理，并将回复发送回对应的Telegram聊天。

步骤四：与你的Bot对话

在Telegram中搜索你刚才创建的Bot用户名（如@whiteagent_helper_bot）。
点击Start或发送/start命令。
此时，WhiteAgent会要求用户输入邀请码（之前用invite create生成的）。用户输入正确的邀请码后，即被注册为acme租户下的用户，并可以开始与helperAgent自由对话了。

这个过程实现了平台用户与租户内部用户的映射，并且通过邀请码机制控制了访问权限。

4. 插件开发与高级功能定制

4.1 插件开发入门：编写一个简单的工具插件

WhiteAgent的真正威力在于其插件生态。虽然项目自带了不少插件，但总有一天你会需要自定义功能。我们来尝试开发一个最简单的工具插件：一个“随机数生成器”工具。

步骤一：搭建开发环境确保你的本地环境安装了Go 1.24+，并且CGO_ENABLED=1（因为插件机制依赖CGO）。

git clone https://github.com/whiteagent-org/whiteagent.git cd whiteagent # 确保能成功编译主程序 make build

步骤二：创建插件项目结构WhiteAgent的插件位于internal/plugins/目录下，每个类型有各自的子目录。我们新建一个工具插件。

mkdir -p internal/plugins/tools/random cd internal/plugins/tools/random touch random.go

步骤三：实现插件代码编辑random.go文件：

package random import ( "context" "fmt" "math/rand" "time" "github.com/whiteagent-org/whiteagent/pkg/plugin" "github.com/whiteagent-org/whiteagent/pkg/plugin/tools" ) // 定义工具的结构体 type RandomTool struct{} // 实现工具的元数据方法 func (t *RandomTool) Metadata() tools.Metadata { return tools.Metadata{ Name: "random_number", Description: "生成一个指定范围内的随机整数。", Parameters: map[string]tools.Parameter{ "min": { Type: "integer", Description: "随机数的最小值（包含）", Required: true, }, "max": { Type: "integer", Description: "随机数的最大值（包含）", Required: true, }, }, } } // 实现工具的执行方法 func (t *RandomTool) Execute(ctx context.Context, req tools.ExecutionRequest) (*tools.ExecutionResult, error) { // 1. 从请求中解析参数 min, ok := req.Parameters["min"].(float64) // JSON数字默认是float64 if !ok { return nil, fmt.Errorf("参数 'min' 缺失或类型错误") } max, ok := req.Parameters["max"].(float64) if !ok { return nil, fmt.Errorf("参数 'max' 缺失或类型错误") } if min > max { return nil, fmt.Errorf("最小值不能大于最大值") } // 2. 生成随机数 (使用当前时间作为种子) rng := rand.New(rand.NewSource(time.Now().UnixNano())) randomNum := int(min) + rng.Intn(int(max)-int(min)+1) // 3. 返回执行结果 return &tools.ExecutionResult{ Content: fmt.Sprintf("在 %d 到 %d 之间生成的随机数是：**%d**", int(min), int(max), randomNum), }, nil } // 插件的初始化函数，这是插件入口点 func init() { // 向工具插件工厂注册我们的工具 plugin.RegisterTool(&RandomTool{}) }

步骤四：编译插件WhiteAgent使用一个统一的Makefile目标来编译所有插件。

# 在项目根目录执行 make plugins

编译成功后，你会在plugins/目录（或你在config.json中指定的插件目录）下找到一个名为tools_random.so的文件（命名规则是类型_插件名.so）。

步骤五：启用并使用新工具

确保插件被加载：检查config.json中的plugins.dir路径是否正确指向了包含tools_random.so的目录。

将工具赋予Agent：使用CLI为你的Agent启用这个新工具。

./bin/whiteagent agent update --tenant acme --slug helper --add-tool random_number

测试：现在，当你向你的Agent提问时，它就可以调用这个random_number工具了。例如，用户可以说：“请帮我生成一个1到100的随机数。” Agent会理解这个请求，调用工具，并返回结果。

开发心得：工具插件的核心是Metadata()和Execute()两个方法。Metadata()向系统描述这个工具是什么、需要什么参数，这决定了LLM如何理解和调用它。Execute()是具体的执行逻辑。参数验证和错误处理一定要做充分，因为LLM生成的调用参数可能是不准确的。另外，工具的执行应该是幂等的，并且尽可能快速，避免阻塞主请求线程。

4.2 深入配置：优化性能与安全性

默认配置适合起步，但要用于生产，还需要调整一些关键参数。

数据库优化：默认的SQLite适合轻量级使用和开发。如果用户量或数据量较大，建议切换到PostgreSQL。

// config.json "database": { "driver": "postgres", "dsn": "host=localhost port=5432 user=whiteagent password=your_password dbname=whiteagent sslmode=disable" }

同时，可以配置连接池参数：

"database": { ..., "max_open_conns": 25, "max_idle_conns": 5, "conn_max_lifetime": "1h" }

LLM调用优化：在LLM插件配置中，可以设置超时和重试，提高稳定性。

// 假设有一个自定义的LLM配置段，或修改插件本身的配置 "openai": { "api_key": "$OPENAI_API_KEY", "timeout": "30s", "max_retries": 2, "model": "gpt-4o" // 默认模型 }

沙箱资源限制：在docker-compose.yml中，可以对执行代码的沙箱容器施加更严格的限制，防止恶意或错误代码耗尽资源。

# docker-compose.yml 中 whiteagent 服务的部分 services: whiteagent: ... deploy: resources: limits: cpus: '2' memory: 4G # 通过环境变量将资源限制传递给内部沙箱逻辑（如果插件支持） environment: - SANDBOX_CPU_LIMIT=1 - SANDBOX_MEMORY_LIMIT=512m - SANDBOX_PIDS_LIMIT=50

日志与监控：配置更详细的日志级别，便于排查问题。

// config.json "log": { "level": "info", // 可设置为 debug, info, warn, error "format": "json" // 结构化日志，便于接入ELK等系统 }

考虑使用中间件插件来实现访问日志、指标收集（如Prometheus metrics）和分布式追踪（如OpenTelemetry）。

5. 生产环境部署、问题排查与运维经验

5.1 部署策略选择：DinD vs. 裸机

这是部署WhiteAgent时最重要的决策之一，直接关系到安全性和复杂度。

DinD (Docker-in-Docker) 模式：

优点：部署简单，几乎无需额外配置。容器隔离性较好，适合快速启动和原型验证。
缺点：WhiteAgent容器需要以privileged特权模式运行，或者挂载Docker socket。这实质上赋予了容器内代码控制宿主机Docker守护进程的能力，安全风险较高。如果AI Agent的工具执行逻辑或插件存在漏洞，攻击者可能逃逸出沙箱容器，进而控制宿主机。
适用场景：开发、测试环境，或对安全性要求不高、且运行在隔离虚拟机/云实例中的内部应用。

裸机 (Bare Metal) 模式：

优点：安全性更高。WhiteAgent进程直接运行在宿主机上，利用Linux内核的namespaces和cgroups为每个工具执行创建隔离环境（类似于docker run但无需完整的Docker守护进程）。去掉了DinD这一层，攻击面大大减小。
缺点：部署和配置极其复杂。需要手动设置用户命名空间、网络命名空间、文件系统挂载点、资源控制组等。对运维人员的内核知识要求高。
适用场景：对安全性有严格要求的线上生产环境，且有专业的运维团队支持。

个人建议：对于大多数团队，我推荐一个折中方案：使用DinD模式，但将其部署在一个高度受限的独立环境中。例如，在Kubernetes里，创建一个专用的节点池（Node Pool）来运行WhiteAgent，并给这个节点池打上污点（Taint），只有WhiteAgent的Pod可以调度上去。同时，严格限制该节点对集群内部和其他网络资源的访问。这样，即使发生最坏情况，影响范围也被限制在这个“沙箱节点”内。

5.2 常见问题与排查实录

在实际使用中，我遇到了不少问题，这里总结几个典型的：

问题一：Agent不响应或回复慢

可能原因1：LLM API连接问题。
- 排查：查看WhiteAgent日志 (docker compose logs whiteagent)。寻找与LLM插件相关的错误，如连接超时、认证失败、配额不足等。
- 解决：检查.env文件中的API密钥是否正确、是否过期；检查网络是否能访问对应的API端点（如api.openai.com）；考虑LLM服务商是否出现区域性故障。
可能原因2：工具执行卡住。
- 排查：如果Agent的回复是“我正在处理...”，然后长时间没下文，很可能是某个工具（如shell、web_search）执行超时或死循环。
- 解决：检查沙箱容器的状态 (docker ps)。可能有一个“僵尸”容器在运行。可以尝试在配置中为工具设置更短的超时时间，并在工具插件代码中加入更严格的执行时间限制。

问题二：插件加载失败

现象：启动日志中出现plugin.Open(...): plugin was built with a different version of package ...或找不到插件。
原因：插件与主程序的Go版本、依赖库版本不兼容。
解决：
1. 确保插件和主程序使用完全相同的Go版本编译。
2. 确保插件和主程序依赖的whiteagent/pkg/plugin等内部包版本一致。最佳实践是：始终使用与当前WhiteAgent主代码库相同的Git commit来编译你的自定义插件。将你的插件代码放在WhiteAgent项目的internal/plugins/目录下，使用项目的make plugins命令统一编译，可以最大程度避免版本问题。

问题三：Telegram Bot收不到消息或无法回复

可能原因1：网络问题，Webhook无法送达。
- 排查：如果你使用Webhook模式，确保config.json中的webhook_url是公网可访问的HTTPS地址。可以使用curl测试该URL。
- 解决：如果没有公网IP，可以改用polling模式（设置"polling": true），让WhiteAgent主动向Telegram服务器拉取消息。
可能原因2：Bot Token或绑定关系错误。
- 排查：检查.env中的TELEGRAM_BOT_TOKEN是否正确。使用CLI命令./bin/whiteagent channel list --tenant acme查看当前的通道绑定状态。
- 解决：重新执行channel link telegram命令进行绑定。也可以尝试在Telegram中向@BotFather发送/mybots，选择你的Bot，然后发送/deletebot并重新创建（注意这会丢失所有用户和聊天记录）。

问题四：数据库性能瓶颈

现象：随着对话历史增多，Agent响应变慢，数据库连接数飙升。
排查：监控数据库（如PostgreSQL）的活跃连接数、慢查询日志。
解决：
1. 为messages（消息表）等核心表按tenant_id和created_at创建索引。
2. 实施对话历史归档策略。可以开发一个中间件插件或定时任务，定期将旧的、不活跃的对话历史转移到对象存储（如S3）或冷存储中，主表只保留近期数据。
3. 考虑使用连接池，并合理设置连接数（如前文配置所示）。

5.3 监控、备份与高可用考量

监控：

应用日志：将WhiteAgent的JSON格式日志收集到集中式日志系统（如Loki、ELK）。
指标：通过/metrics端点（如果开启）暴露Prometheus格式指标，监控请求量、响应时间、错误率、工具调用次数等。
健康检查：配置Docker Compose或Kubernetes的存活探针（Liveness Probe）和就绪探针（Readiness Probe），指向WhiteAgent的健康检查端点（如/health）。

备份：

数据库：定期备份SQLite文件或PostgreSQL数据库。这是最重要的资产，包含了所有租户、Agent、用户和对话历史。
配置文件与密钥：备份data/config.json和.env文件。
插件：备份自定义编译的.so插件文件。

高可用： WhiteAgent本身是无状态的（状态存储在数据库中），因此实现高可用的关键在于：

数据库高可用：使用云托管的、支持高可用的PostgreSQL服务（如AWS RDS、Google Cloud SQL）。
无状态服务多实例：可以部署多个WhiteAgent实例，共享同一个数据库。前端通过负载均衡器（如Nginx, HAProxy）或云负载均衡服务将请求分发到各个实例。
文件存储：如果使用了文件上传等功能，确保上传的文件存储在共享对象存储（如S3、MinIO）中，所有WhiteAgent实例都能访问。
会话亲和性：对于WebSocket连接（如果未来有Web界面），可能需要配置负载均衡器的会话亲和性（Session Affinity），让同一用户的连接落在同一个后端实例上。

从我的实践经验来看，WhiteAgent是一个设计精良、理念先进的开源AI Agent运行时。它的插件化和多租户架构为构建复杂、可扩展的AI应用提供了坚实的基础。不过，它的强大也带来了相应的复杂度，尤其是在生产环境的部署和安全加固上，需要投入相当的精力。对于想要深度定制AI Agent能力，并需要服务多个独立客户或团队的开发者来说，它是一个非常值得研究和投入的项目。建议从DinD模式开始快速验证想法，待业务模型跑通后，再逐步向更安全的裸机部署或经过加固的隔离环境迁移。