本地AI多智能体系统实时监控仪表盘：Mission Control部署与实战指南-平芜编程栈

1. 项目概述：一个为本地AI多智能体系统打造的实时监控仪表盘

如果你和我一样，在本地运行着一套由Claude Code、Hermes、OpenClaw等智能体组成的AI工作流，那你一定深有体会：管理这些“数字员工”的状态，简直就像在玩一个没有地图的即时战略游戏。每个智能体都在自己的终端窗口里默默运行，路由决策淹没在日志洪流中，内存健康状况难以直观判断，而整个系统的运行状态更是散落在各处。这种“盲人摸象”式的操作体验，不仅效率低下，更在关键时刻让人心里没底。

iriseye931-ai/mission-control-dashboard（以下简称Mission Control）就是为了解决这个问题而生的。它是一个完全自托管、无需云端、无需API密钥的实时监控仪表盘，专为像我们这样在本地搭建AI智能体网络的开发者设计。它的核心价值在于，将分散的、不可见的智能体状态，聚合到一个统一的、可视化的操作界面中，让你能像指挥中心一样，对麾下的所有“AI特工”了如指掌。

这个项目特别适合以下场景：

本地AI开发者：在个人工作站（尤其是Apple Silicon Mac）上运行多个LLM智能体，进行代码生成、自动化任务或复杂工作流编排。
多智能体系统研究者：需要观察智能体间的交互、路由决策和系统资源消耗。
追求效率的极客：厌倦了在多个终端、日志文件和配置中切换，渴望一个统一的“上帝视角”来管理自己的AI工具链。

简单来说，Mission Control就是你本地AI生态的“驾驶舱”。接下来，我将带你深入拆解它的设计哲学、实现细节，并分享从部署到深度集成的一线实操经验。

2. 核心设计哲学与架构解析

Mission Control的成功，很大程度上源于其清晰且坚定的设计理念。它没有试图成为一个“大而全”的AI平台，而是精准定位为一个“观察者”和“协调者”。理解这一点，是有效使用和二次开发它的关键。

2.1 “无侵入式”监控与“本地优先”原则

这是Mission Control最核心的设计决策。它不替代你现有的任何工具（Claude Code、Hermes等），也不要求你修改这些工具的代码或运行方式。它通过后端服务主动轮询（Polling）本地服务的健康端点、进程状态和日志文件，来收集数据。这种方式的好处显而易见：

零耦合：你的智能体生态可以独立演进，Mission Control只是附加上去的一个观察层。智能体挂了，仪表盘会显示异常，但不会导致智能体本身崩溃。
部署简单：你不需要为每个智能体安装SDK或埋点，只需确保Mission Control的后端能访问到它们提供的网络接口或日志目录。
安全可控：所有数据都在本地流转，没有隐私泄露风险，也完全不受网络波动影响。

“本地优先”则体现在技术栈和资源消耗上。后端使用轻量级的FastAPI和WebSocket，前端是React + Vite，整个栈非常现代且高效。推理层明确支持MLX（针对Apple Silicon优化），这直接宣告了它对在个人Mac上构建AI工作流的友好性。Docker Compose的一键部署，更是将“开箱即用”的体验做到了极致。

2.2 信息架构：为“操作”而非“展示”设计

很多监控面板只是数据的罗列，而Mission Control的UI经过了深思熟虑，其信息布局直接服务于操作决策：

永久性智能体坞站（左侧）：将Lead（领导智能体，如Atlas）、Hermes（任务执行者）、IrisEye（文件/网页操作者）这三个核心角色的状态（运行中、空闲、错误）、当前任务、运行时信息和所用模型永久固定显示。这确保了最关键的执行单元状态一目了然，无需点击或切换标签页。
电影化网状拓扑球体（中央）：这不仅是炫酷的视觉效果，更是信息密度的体现。球体上的节点代表各个服务（如Memory MCP, OpenViking），连线代表它们之间的通信或依赖关系。节点的动态发光、连线的颜色变化（如因内存问题变为琥珀色或红色），直观地传达了路由状态和系统健康度。可点击的节点能快速聚焦到对应的服务详情。
顶部操作条与警报区：这里集中显示最高优先级的系统警报、当前内存模式、路由目标等需要立即关注的“红色告警”信息。
系统面板与底部遥测栏：以HUD（平视显示器）风格嵌入在球体周围和底部，实时显示CPU、内存、MLX GPU内存、磁盘等主机资源使用率。这让开发者能快速判断瓶颈是出在智能体逻辑上，还是系统资源不足上。

这种设计使得开发者能在一秒内完成对整个系统状态的“扫描”，快速定位问题域，而不是在数据海洋中迷失。

2.3 技术栈选型背后的考量

层级	技术选型	选型理由与实操注意点
前端	React 19 + Vite + TypeScript + Tailwind CSS + Zustand	React 19 & Vite：追求最新的开发体验和构建速度，适合快速迭代的仪表盘项目。TypeScript：对于监控类项目，数据类型复杂（如智能体状态、系统指标），TS能极大减少运行时错误，提升代码可维护性。Tailwind CSS：快速实现文中展示的“高级深色终端美学”，统一设计语言。Zustand：轻量级状态管理，完美契合仪表盘频繁、细粒度状态更新（WebSocket推送）的场景，比Redux更简洁。
后端	FastAPI + Uvicorn + WebSockets + Pydantic	FastAPI：异步特性好，自动生成API文档，与WebSocket集成优雅。Pydantic：用于数据验证和序列化，确保从前端发送或从其他服务收集到的数据格式正确，是稳定性的基石。WebSockets：实现后端到前端的全双工、低延迟实时数据推送，这是仪表盘“实时”体验的核心。
部署	Docker Compose	一键封装环境：将前端、后端、可能的依赖服务（如本地Redis用于缓存状态）打包，彻底解决“在我机器上能跑”的问题。简化了分享和部署流程。
推理 (可选)	MLX (Qwen3.5 35B-A3B 4-bit)	Apple Silicon原生优化：MLX库能充分利用M系列芯片的统一内存架构，实现大模型的高效本地推理。4-bit量化：在48GB内存的Mac上能流畅运行35B参数模型，平衡了性能与质量。项目将其作为可选的本地推理后端，体现了对本地化闭环的追求。

实操心得：状态管理陷阱在开发这类实时仪表盘时，最容易踩的坑是前端状态管理混乱。由于数据通过WebSocket源源不断涌来，如果直接更新React组件状态，可能会导致频繁的无关渲染，造成页面卡顿。Mission Control使用Zustand，并配合immer这样的不可变数据更新库是明智之举。在实际集成中，务必注意对WebSocket消息进行节流（Throttle）或防抖（Debounce），特别是对于CPU/内存这种高频更新指标，没必要每秒渲染60次，每秒更新2-4次对于监控来说已经足够流畅。

3. 从零部署与核心配置实战

让我们抛开README，从第一行命令开始，亲手搭建并深入配置这个仪表盘。我会补充官方文档中省略的细节和可能遇到的坑。

3.1 基础环境准备与一键部署

假设你已经在本地安装了Docker和Docker Compose。

# 1. 克隆仓库 git clone https://github.com/iriseye931-ai/mission-control-dashboard.git cd mission-control-dashboard # 2. 一键启动（核心命令） docker-compose up --build

这个命令会执行以下操作：

构建前端（frontend目录）的Docker镜像，安装Node.js依赖并打包React应用。
构建后端（backend目录）的Docker镜像，创建Python虚拟环境并安装requirements.txt中的依赖。
启动定义在docker-compose.yml中的所有服务（通常是前端、后端两个容器）。
--build参数确保每次代码更新后镜像被重新构建。

部署后访问：

仪表盘界面：打开浏览器，访问http://localhost:3000。你应该能看到UI框架，但可能没有数据，因为后端还没有检测到你的智能体。
后端API：http://localhost:8000。访问http://localhost:8000/docs可以看到完整的Swagger API文档，这是测试和调试的利器。
WebSocket端点：ws://localhost:8000/ws。前端通过这个连接接收实时数据。

注意事项：端口冲突与网络模式如果3000或8000端口已被占用，你需要修改docker-compose.yml文件中的端口映射。例如，将"8000:8000"改为"8001:8000"，则后端API访问地址变为http://localhost:8001。默认情况下，Docker容器使用“桥接”网络。这意味着容器内的localhost指的是容器自己，而不是宿主机。Mission Control后端需要访问宿主机上运行的智能体服务（如Hermes的API）。因此，在docker-compose.yml中，后端服务的配置必须使用host.docker.internal这个特殊DNS来指向宿主机，或者直接使用宿主机的真实IP。你需要检查后端的配置代码（如config.py或环境变量），确保它正确指向了你的智能体服务地址（例如http://host.docker.internal:11434对应Ollama）。

3.2 手动部署与深度调试

对于想要深入了解内部机制，或需要在非Docker环境下运行（例如直接在你的开发Python环境中）的用户，手动部署是更好的选择。

后端部署：

cd backend # 强烈建议使用虚拟环境 python -m venv venv source venv/bin/activate # Linux/Mac # venv\Scripts\activate # Windows pip install -r requirements.txt # 启动后端，--reload参数便于开发时热重载 uvicorn main:app --reload --host 0.0.0.0 --port 8000

前端部署：

cd frontend npm install # 或使用 yarn/pnpm npm run dev # 启动Vite开发服务器，通常运行在5173端口

此时，前端(localhost:5173)需要连接后端(localhost:8000)。你需要检查frontend项目中的API基础URL配置（通常在.env文件或vite.config.ts中），确保它指向正确的后端地址。

Mesh Doctor——你的系统诊断工具：这是一个非常实用的脚本，它会对你的整个Mission Control系统进行一次“体检”。

cd backend ./venv/bin/python mesh_doctor.py

它会检查：

Mission Control自身服务是否健康。
Hermes、AI Maestro等关键服务是否可达。
Cron定时任务的新鲜度。
路由策略配置。
是否有“僵尸”智能体进程。运行它，可以快速定位集成初期的连接性问题。

3.3 连接你的智能体生态系统

这是最关键的一步。Mission Control的后端通过轮询和接收事件两种方式获取数据。

1. 轮询（Polling）：后端会定期向预设的URL发送HTTP GET请求，检查服务健康状态并获取数据。你需要在后端的配置文件（可能是config.yaml,.env或config.py）中，定义你的智能体服务的端点。

例如，假设你的智能体服务如下：

Hermes API运行在http://localhost:8081
本地Ollama服务运行在http://localhost:11434
自定义的记忆服务运行在http://localhost:7412

那么配置可能类似于：

# config.yaml (示例) agents: hermes: health_url: "http://localhost:8081/health" status_url: "http://localhost:8081/api/status" ollama: health_url: "http://localhost:11434/api/health" memory_mcp: health_url: "http://localhost:7412/health"

后端会按照一定间隔（如每5秒）去查询这些URL，解析返回的JSON，从而更新仪表盘上对应节点的状态。

2. 事件推送（WebSocket / REST API）：对于更实时、更丰富的数据（如智能体开始一个新任务、路由决策日志、内存检索事件），可以让你的智能体主动向Mission Control汇报。

通过REST API发送事件：

# 在你的Hermes或OpenClaw智能体代码中 import requests import time def send_agent_update(task_name, status, progress): payload = { "timestamp": int(time.time()), "from_agent": "hermes", "event_type": "task_update", "summary": f"Hermes: {task_name}", "details": f"Status: {status}, Progress: {progress}%", "metadata": {"task_id": "xyz123"} } try: # 发送到Mission Control的API resp = requests.post("http://localhost:8000/api/agent-events", json=payload, timeout=2) if resp.status_code != 200: print(f"Failed to send update to Mission Control: {resp.text}") except Exception as e: # 网络错误不影响主任务执行，符合“无侵入”设计 print(f"Mission Control unreachable: {e}")

通过WebSocket连接：前端已经连接了后端的WebSocket。后端在收到上述REST API事件，或轮询到新数据后，会通过WebSocket广播给所有已连接的客户端（即你的浏览器页面）。你也可以自己写一个客户端连接WebSocket来接收原始数据流。

// 在浏览器控制台或自定义监控脚本中 const ws = new WebSocket('ws://localhost:8000/ws'); ws.onmessage = function(event) { const data = JSON.parse(event.data); console.log('实时系统状态:', data); // 你可以在这里进行自定义的报警逻辑，比如当CPU>90%时发送通知 if (data.system.cpu_percent > 90) { alert('CPU负载过高！'); } };

实操心得：配置智能体端点最大的挑战在于让Mission Control发现你的本地服务。如果你的服务监听在localhost上，从Docker容器内部是无法直接访问的。解决方法有：
使用host.docker.internal：在Docker容器内，这个主机名会解析为宿主机的IP。将配置中的localhost替换为此。
使用宿主机真实IP：查找你的本机IP（如192.168.1.100），并配置服务监听在这个IP上（--host 0.0.0.0），然后在Mission Control配置中使用该IP。
使用Docker自定义网络：将你的智能体服务也容器化，并与Mission Control放在同一个自定义Docker网络中，它们可以通过容器名互相访问。这是更生产化的做法，但复杂度更高。建议从方法1开始，它最简单直接。

4. 核心功能模块深度剖析与定制

Mission Control的仪表盘由多个精心设计的模块组成。理解每个模块的数据来源和呈现逻辑，有助于你根据自身需求进行定制或故障排查。

4.1 智能体状态检测与呈现逻辑

左侧坞站和中央网状球体上的智能体状态，并非简单的“在线/离线”。其状态机通常更复杂：

启动中 (Starting)：后端检测到进程存在，但健康检查未通过。
空闲 (Idle)：健康检查通过，且无当前任务报告。
忙碌 (Busy)：健康检查通过，且从/api/status或事件中收到了任务信息。
错误 (Error)：健康检查失败（HTTP非200状态码或超时），或从事件中收到了错误报告。
未知 (Unknown)：从未成功检测到该服务。

后端实现这个状态机的伪代码逻辑如下：

# 简化版状态判断逻辑 def determine_agent_status(health_response, last_event): if health_response is None or health_response.timed_out: return "unknown" if not health_response.is_ok: # HTTP status != 2xx return "error" if last_event and last_event.type == "task_started": return "busy" if last_event and last_event.type == "task_failed": return "error" # 默认状态，可能结合更复杂的超时逻辑 return "idle"

自定义智能体集成：如果你想监控一个README中未列出的智能体（比如你自己写的脚本），你需要做两件事：

为该智能体提供一个HTTP健康端点（例如/health，返回{"status": "ok"}）。
在Mission Control的后端配置文件中，添加这个新智能体的轮询地址。
（可选）让该智能体在执行关键动作时，向Mission Control的/api/agent-events端点发送事件。

4.2 路由策略的可视化与配置

项目README中提到了一个核心路由策略：local-first, premium-by-exception。这个策略在仪表盘上如何体现？

在“路由摘要”面板：你会看到类似“当前路由：常规 -> Hermes”的文本。这来自后端对日志的分析或从AI Maestro（一个假设的协调器）获取的数据。
在网状球体上：当一次任务被路由时，从“请求发起者”节点到“任务执行者”节点的连线会高亮闪烁，形成一条视觉路径。
在警报区：如果预设的“优质”智能体（如Atlas/Claude）被用于常规任务，可能会触发一个“路由策略违规”的警告。

如何修改路由策略？路由策略的逻辑并不直接存在于Mission Control中。Mission Control只是可视化由你的底层协调器（如AI Maestro或你自己写的调度脚本）做出的决策。因此，要改变路由，你需要修改你的协调器逻辑。

例如，你的协调器可能有一个配置文件：

# scheduler_policy.yaml routing_rules: - pattern: "task.type == 'routine'" target: "hermes" priority: 10 - pattern: "task.type == 'code_review'" target: "atlas" priority: 5 fallback: "claude" - pattern: "task.requires_web" target: "iriseye" priority: 8

Mission Control的后端可以通过轮询协调器的某个API（如/api/current-routing-policy）来获取这个策略，并将其显示在仪表盘的一个配置面板上。目前项目可能还未实现策略编辑UI，但通过API暴露策略信息是未来的一个自然扩展方向。

4.3 内存与系统遥测数据的采集

底部遥测栏和系统HUD中的数据是系统健康的“生命体征”。它们通常通过以下方式获取：

CPU/RAM/Disk：后端通过Python的psutil库直接读取宿主机的系统指标。在Docker中，需要将宿主机的/proc文件系统以只读方式挂载到容器内，或使用Docker的Stats API。
MLX GPU内存：如果使用了MLX，后端会调用MLX提供的Python API（如mlx.core.metal.get_active_memory()等）来获取GPU内存使用情况。这要求MLX库在Mission Control的后端环境中可用。
“内存路由智能”：这是一个高级功能。它需要连接到你的记忆服务（如OpenViking）。后端会查询记忆服务的API，获取近期记忆检索的记录，分析哪些记忆被频繁访问（热点），哪些检索失败了，并将这些信息归纳为“内存健康度”或“路由影响因子”，在UI上以颜色或摘要形式呈现。例如，大量检索失败可能导致连接线变为红色。

自定义指标添加：假设你想监控一个特定数据库的连接数。

在后端创建一个新的数据采集函数get_database_connections()。
将这个函数加入到定期的数据收集任务中。
在前端定义一个新的图表或指标组件，用于消费和展示这个新数据。
更新WebSocket广播的数据结构，包含这个新字段。

4.4 Hermes多配置文件的深度集成

这是Mission Control一个非常亮眼的特性。它不仅仅把Hermes看作一个服务，而是理解其“多配置”的工作模式。

集成原理：

进程发现：后端通过ps aux | grep hermes或检查特定端口，发现运行的Hermes进程。
配置目录扫描：读取~/.hermes/profiles目录（路径可配置），解析每个配置文件夹下的config.yaml文件。
状态聚合：对于每个配置，Mission Control会尝试：
- 获取其专属的API端口状态。
- 读取其会话历史（sessions/目录）。
- 检查其工作树（worktree）状态。
- 汇总其技能（skills）列表。
UI呈现：在Hermes的坞站卡片或详细面板中，以一个标签页或下拉列表的形式，展示所有已发现的配置及其状态（如“workhorse - 运行中 - Qwen3.5-35B”、“sidecar - 已停止”）。

这让你能清晰地看到，是哪个配置在处理任务，每个配置的资源占用如何，从而实践“按需加载重型配置”的资源管理策略。

5. 常见问题排查与实战技巧

在实际部署和使用中，你一定会遇到各种问题。以下是我总结的常见问题及解决方案。

5.1 仪表盘无数据或显示“未知”

这是最常见的问题。

问题现象	可能原因	排查步骤
所有智能体都显示“未知”	1. 后端服务未正常运行。 2. 后端配置错误，无法连接到智能体。 3. 网络或防火墙阻止了连接。	1. 检查后端日志`docker-compose logs backend`。 2. 访问`http://localhost:8000/docs`，测试`/api/health`和`/api/agents`端点是否返回数据。 3. 在后端容器内执行`curl http://host.docker.internal:你的智能体端口/health`，测试连通性。 4. 检查Docker网络模式和防火墙设置。
部分智能体显示“未知”	1. 该智能体服务未启动。 2. 该智能体的健康端点URL在Mission Control配置中错误。 3. 该智能体的健康端点返回了非标准格式。	1. 确认该智能体进程是否在运行。 2. 手动在浏览器或终端访问配置的`health_url`，看是否返回`200 OK`和预期的JSON。 3. 检查后端日志中对该特定URL的轮询错误信息。
数据时有时无	1. 智能体服务不稳定，间歇性宕机。 2. 网络波动。 3. Mission Control后端负载过高，轮询超时。	1. 查看智能体自身的日志，确认其稳定性。 2. 增加Mission Control后端配置中的轮询超时时间。 3. 考虑降低非关键智能体的轮询频率。

5.2 WebSocket连接断开或数据不更新

问题：页面打开时正常，但过一段时间后数据不再更新，浏览器控制台显示WebSocket错误。
排查：
1. 检查浏览器网络面板，查看WebSocket连接状态。如果是101 Switching Protocols然后断开，可能是后端重启或出现了异常。
2. 查看后端日志，是否有与WebSocket相关的错误（如连接数过多、心跳超时）。
3. 检查是否有代理或中间件（如Nginx）配置不当，未正确支持WebSocket协议（需要Upgrade和Connection头）。

解决：

确保后端服务稳定。

如果是通过Nginx反向代理，配置中必须包含：

location /ws/ { proxy_pass http://backend:8000; proxy_http_version 1.1; proxy_set_header Upgrade $http_upgrade; proxy_set_header Connection "upgrade"; proxy_set_header Host $host; }

在前端代码中增加WebSocket的重连逻辑。

5.3 性能问题：页面卡顿或后端负载高

前端卡顿：
- 原因：WebSocket消息过于频繁（如每秒数十次系统指标更新），导致React过度渲染。
- 解决：在前端对接收到的数据进行聚合与节流。例如，将每秒多次的CPU数据在状态管理库（Zustand）中先缓存，每500毫秒只触发一次UI更新。Mission Control的前端可能已经做了优化，但如果自定义添加了大量图表，需要注意此问题。
后端CPU/内存占用高：
- 原因：轮询的智能体数量过多、频率过高；或某个智能体的健康检查接口响应慢，导致请求堆积。
- 解决：
  1. 调整轮询间隔：将非核心智能体的检查间隔从5秒改为30秒或更长。
  2. 优化健康检查接口：确保你的智能体健康端点响应迅速，避免复杂查询。
  3. 使用异步IO：确保后端使用async/await进行所有HTTP请求，避免阻塞事件循环。FastAPI和httpx/aiohttp库对此支持很好。
  4. 实施超时机制：为每个轮询请求设置合理的超时（如2秒），超时即视为失败，避免长时间等待。

5.4 自定义智能体集成失败

问题：自己编写的脚本无法在仪表盘上显示状态。
检查清单：
1. 端点是否可访问：从运行Mission Control后端的环境（容器或宿主机）中，用curl或wget测试你的脚本健康URL。
2. 响应格式是否正确：Mission Control期望健康端点返回一个包含status字段的JSON对象，如{"status": "ok"}或{"status": "error", "message": "..."}。请确保你的脚本返回正确的Content-Type: application/json头。
3. CORS问题：如果你的脚本运行在浏览器中（如一个Web UI），并向不同端口的Mission Control后端发送事件，可能会遇到CORS限制。需要在Mission Control后端配置CORS中间件，允许前端域名。FastAPI中可以使用fastapi.middleware.cors.CORSMiddleware。
4. 认证问题：如果你的智能体端点需要API密钥，你需要在Mission Control的后端配置中添加相应的请求头。这通常在后端的HTTP客户端配置中完成。

5.5 数据持久化与历史记录

Mission Control默认是一个实时仪表盘，它不长期存储历史数据。这意味着刷新页面后，过去的事件和指标就消失了。

需求：如果你想分析过去一小时CPU的趋势，或者查看某个智能体一天内的故障历史，就需要持久化。
解决方案：
1. 最简单的日志：后端已经将事件和日志输出到控制台。你可以使用docker-compose logs -f > mission_control.log将日志重定向到文件。
2. 集成时序数据库：这是一个更专业的方案。可以修改后端，将收集到的系统指标（CPU、内存）写入InfluxDB或TimescaleDB。然后使用Grafana等工具来制作历史趋势图表。这相当于将Mission Control的实时面板和Grafana的历史分析面板结合使用。
3. 轻量级SQLite：对于小型部署，可以在后端使用SQLite数据库，定期将快照数据存入。然后为Mission Control前端增加一个“历史回顾”页面，查询SQLite中的数据。这需要一定的前后端开发工作。

6. 扩展与二次开发指南

Mission Control提供了一个优秀的基底，你可以根据自己团队的特定需求进行扩展。

6.1 添加新的可视化组件

假设你想在底部遥测栏添加一个“网络I/O”监控。

后端数据采集：

# 在 backend/services/system_monitor.py 中添加 import psutil def get_network_io(): net_io = psutil.net_io_counters() return { "bytes_sent": net_io.bytes_sent, "bytes_recv": net_io.bytes_recv, "packets_sent": net_io.packets_sent, "packets_recv": net_io.packets_recv, } # 在定期收集任务中调用此函数，并将结果并入总的system_metrics中

前端组件开发：
- 在frontend/src/components目录下创建NetworkIOMeter.tsx。
- 从全局状态（Zustand store）中获取最新的network_io数据。
- 设计UI，例如用两个迷你柱状图分别显示发送/接收速率（需要计算上一秒的差值）。
- 将这个组件添加到主布局的底部遥测栏组件中。
状态更新：确保后端通过WebSocket广播的消息格式包含了新的network_io字段，并且前端状态管理能处理这个新字段。

6.2 实现自定义警报规则

现有的警报可能只基于服务健康状态。你可以增加基于业务逻辑的警报。

在后端创建警报引擎：在backend/services/alert_engine.py中，定义一个函数，定期检查数据并触发警报。

def check_custom_alerts(system_metrics, agent_states): alerts = [] # 规则1: 如果Hermes连续5次轮询都处于“忙碌”状态，可能卡住了 if agent_states.get('hermes') == 'busy': if not hasattr(check_custom_alerts, 'hermes_busy_count'): check_custom_alerts.hermes_busy_count = 0 check_custom_alerts.hermes_busy_count += 1 if check_custom_alerts.hermes_busy_count > 5: alerts.append({ "level": "warning", "title": "Hermes可能已卡住", "message": "Hermes长时间处于忙碌状态，请检查当前任务。" }) else: check_custom_alerts.hermes_busy_count = 0 # 规则2: 如果MLX内存使用率超过90% if system_metrics.get('mlx_memory_percent', 0) > 90: alerts.append({ "level": "critical", "title": "MLX内存不足", "message": f"MLX GPU内存使用率高达{system_metrics['mlx_memory_percent']}%，可能影响推理性能。" }) return alerts

将警报并入系统：在主数据循环中调用这个函数，并将其产生的警报列表合并到总的系统状态中，通过WebSocket推送到前端。
前端显示：确保顶部的警报区组件能够接收并渲染这些自定义警报。

6.3 与外部系统集成（如Slack、钉钉）

将关键警报发送到团队聊天工具，实现无人值守监控。

在后端创建通知发送器：

# backend/services/notifier.py import requests class SlackNotifier: def __init__(self, webhook_url): self.webhook_url = webhook_url def send_alert(self, alert): payload = { "text": f"🚨 *Mission Control Alert*: {alert['title']}\n>{alert['message']}" } requests.post(self.webhook_url, json=payload)

在警报引擎中调用：在check_custom_alerts函数中，当产生critical级别的警报时，除了加入返回列表，同时调用slack_notifier.send_alert(alert)。
配置化：将Slack Webhook URL等配置信息放入环境变量或配置文件中。

通过以上这些扩展，你可以将Mission Control从一个通用的监控面板，逐步改造成完全贴合你自身AI工作流和团队协作习惯的专属指挥中心。它的开源架构和清晰的模块设计，为这种定制化提供了坚实的基础。