面向企业/团队内网的本地部署方案:用 vLLM 做高吞吐推理,用 OpenWebUI 提供聊天界面与多租户管理,覆盖 GPU 资源规划、Docker Compose 栈、性能调优与运维要点。
1. 方案概览与选型理由
- vLLM:PagedAttention + 高效调度,适合高并发、长上下文。
- OpenWebUI:轻量 Web 界面,支持多模型、RAG 插件、RBAC 与审计。
- 组合优势:推理服务与前端解耦;可插拔后端;统一 SSO;快速灰度。
2. 基础环境与资源规划
- 硬件:单机 24–80GB GPU(A10/3090/A100);NVMe 存储;16+ 核 CPU。
- 软件:Docker 24+,docker-compose v2;NVIDIA 驱动 + Container Toolkit。
- 网络:内网访问;如需外部模型下载,部署前完成离线镜像或本地模型仓。
3. Docker Compose 一键起服务
# docker-compose.yml