AI 智能体的本地化部署-平芜编程栈

国内 AI 智能体的本地化部署已经非常成熟，主要得益于DeepSeek（深度求索）、Qwen（通义千问）等国产大模型的爆发以及相关量化工具的普及。

实现本地化部署，主要分为“底层模型”、“推理框架”和“智能体编排”三个层面。以下是为您整理的国内主流方案：

一、核心硬件建议

本地部署智能体对硬件有一定要求，尤其是显卡（GPU）：

入门级：NVIDIA RTX 3060 (12GB) 或 4060 Ti (16GB)。可流畅运行 7B 到 14B 参数的模型。
进阶级：NVIDIA RTX 3090 / 4090 (24GB)。这是目前国内开发者和重度用户的首选，可运行 32B 甚至 70B 的量化版模型。
国产替代：华为昇腾 (Ascend) 系列、摩尔线程 (Moore Threads) 或壁仞科技，目前已有专门的框架支持在这些国产芯片上运行 DeepSeek 等模型。

二、模型选择（国内最强梯队）

DeepSeek-R1 系列：目前国内本地部署的“版本答案”。其 R1-Distill-Qwen/Llama 系列在逻辑推理、编程和数学上表现极佳，且提供了多种尺寸供不同硬件选择。
Qwen 2.5 (通义千问)：阿里巴巴开源，中文语境理解极强，生态兼容性最好，是构建国内业务智能体的稳健之选。
InternLM (书生·浦语)：上海 AI Lab 开发，在学术推理和多轮对话上表现优异。

三、软件部署框架方案

1. 轻量化部署（适合个人/快速测试）

Ollama：目前最流行的“一键式”框架。只需一行命令即可在本地启动模型。它对 macOS 和 Windows 的适配非常好，且国内有大量的镜像源加速下载。
LM Studio：提供可视化界面，支持直接搜索和下载模型（需注意网络环境）。

2. 企业级推理框架（追求极致速度）

vLLM：适合高并发场景。如果你的智能体需要同时为多人服务，vLLM 的吞吐量优势非常明显。
玄武 CLI (Xuanwu)：2026 年新晋的国产开源框架，专门针对国产芯片（如昇腾）做了原生适配，支持一键部署 Agent 运行环境。

四、智能体（Agent）编排平台

有了模型后，你需要一个“大脑外壳”来让它调用工具、联网或读取本地文档。

1. Dify (国内最强开源推荐)

Dify 是目前国内生态最好的 LLM 应用开发平台。

特点：支持可视化工作流编排，内置 RAG（知识库检索）能力，可以非常简单地接入本地的 Ollama 或 vLLM 接口。
部署：建议使用 Docker Compose 进行本地私有化部署。

2. FastGPT

专注于知识库问答的智能体框架。

特点：检索精度极高，适合做企业内部的“专家智能体”，支持复杂的表单编排。

3. MaxKB (飞致云)

主打“开箱即用”的本地知识库。

特点：界面极其简洁，对小白非常友好，支持快速导入文档并生成对话插件嵌入到现有网站。

五、部署流程参考

1.环境准备：安装 Docker 和 NVIDIA Container Toolkit（确保 Docker 能调用显卡）。

2.启动模型引擎：使用 Ollama 运行 DeepSeek 模型。

ollama run deepseek-r1:14b

3.搭建编排平台：部署 Dify 或 FastGPT 的 Docker 镜像。

4.接口关联：在 Dify 的设置中，将供应商指向本地的 Ollama 地址（通常是 http://localhost:11434）。

5.创建 Agent：上传本地 PDF/Markdown 建立知识库，并给智能体配置“搜索”或“执行 Python 代码”的插件。

您是希望针对具体的办公场景（如处理文档）进行部署，还是需要为开发者提供一套可定制的 API 环境？如果有明确需求，我可以为您细化其中某一个环节的操作指令。

#AI智能体 #本地化部署 #软件外包

【kill】在容器中使用 nohup 启动 Python 训练脚本后，如何正确停止进程？

在服务器或 Docker 容器中跑深度学习训练时，nohup 几乎是标配操作：（可以参考之前写的文章【在容器中运行长时间 Python 任务：SSH 断开也不怕】 nohup python scripts/frozen_backbone_train.py > logs/frozen_finetune.log…