小白也能搞定的DeOldify服务监控：安装、配置、可视化一步到位-平芜编程栈

小白也能搞定的DeOldify服务监控：安装、配置、可视化一步到位

1. 为什么需要监控DeOldify服务

当你成功部署了DeOldify图像上色服务后，最常遇到的困惑可能是：服务现在运行得怎么样？GPU资源够用吗？内存会不会爆掉？有多少人在使用这个服务？这些问题如果靠手动检查，不仅麻烦还容易遗漏关键信息。

想象一下，你正在处理一批老照片上色任务，突然服务卡死了。没有监控系统的话，你只能像无头苍蝇一样到处找原因：是GPU爆了？内存不够？还是请求太多？有了监控系统，这些问题都能一目了然。

监控系统能帮你解决哪些实际问题：

资源预警：在GPU或内存快用完时提前告警，避免服务突然崩溃
性能优化：发现哪些操作耗时最长，针对性优化代码
使用统计：了解服务的使用频率和高峰时段
故障排查：快速定位问题根源，减少排查时间

2. 监控方案选型与架构设计

2.1 为什么选择Prometheus+Grafana

在众多监控方案中，Prometheus+Grafana组合特别适合DeOldify这类AI服务，原因很简单：

Prometheus：专为动态服务设计的监控系统，能高效采集和存储时间序列数据
Grafana：强大的可视化工具，能把枯燥的数据变成直观的图表
完美配合：Prometheus负责数据采集，Grafana负责展示，分工明确

2.2 监控系统架构

整个监控系统的架构非常简单：

DeOldify服务 → Prometheus采集数据 → Grafana展示图表

具体组件包括：

Prometheus Server：核心监控组件，负责数据采集和存储
Node Exporter：采集服务器基础指标（CPU、内存等）
NVIDIA GPU Exporter：采集GPU相关指标
Grafana：数据可视化平台
Alertmanager：告警管理（可选）

3. 一步步安装监控组件

3.1 安装Prometheus

首先安装核心组件Prometheus：

# 创建专用用户 sudo useradd --no-create-home --shell /bin/false prometheus # 创建数据目录 sudo mkdir /etc/prometheus sudo mkdir /var/lib/prometheus # 下载最新版（请检查官网获取最新版本号） cd /tmp wget https://github.com/prometheus/prometheus/releases/download/v2.47.2/prometheus-2.47.2.linux-amd64.tar.gz tar -xvf prometheus-2.47.2.linux-amd64.tar.gz cd prometheus-2.47.2.linux-amd64 # 安装二进制文件 sudo cp prometheus /usr/local/bin/ sudo cp promtool /usr/local/bin/ sudo chown prometheus:prometheus /usr/local/bin/prometheus # 复制配置文件 sudo cp -r consoles /etc/prometheus sudo cp -r console_libraries /etc/prometheus sudo cp prometheus.yml /etc/prometheus/ sudo chown -R prometheus:prometheus /etc/prometheus

创建系统服务：

sudo tee /etc/systemd/system/prometheus.service > /dev/null <<EOF [Unit] Description=Prometheus Monitoring After=network.target [Service] User=prometheus Group=prometheus ExecStart=/usr/local/bin/prometheus \ --config.file=/etc/prometheus/prometheus.yml \ --storage.tsdb.path=/var/lib/prometheus/ \ --web.listen-address=0.0.0.0:9090 Restart=always [Install] WantedBy=multi-user.target EOF

启动服务：

sudo systemctl daemon-reload sudo systemctl enable prometheus sudo systemctl start prometheus

3.2 安装Node Exporter

Node Exporter用于采集服务器基础指标：

# 创建用户 sudo useradd --no-create-home --shell /bin/false node_exporter # 下载安装 cd /tmp wget https://github.com/prometheus/node_exporter/releases/download/v1.6.1/node_exporter-1.6.1.linux-amd64.tar.gz tar -xvf node_exporter-1.6.1.linux-amd64.tar.gz cd node_exporter-1.6.1.linux-amd64 sudo cp node_exporter /usr/local/bin/ sudo chown node_exporter:node_exporter /usr/local/bin/node_exporter # 创建服务 sudo tee /etc/systemd/system/node_exporter.service > /dev/null <<EOF [Unit] Description=Node Exporter After=network.target [Service] User=node_exporter Group=node_exporter ExecStart=/usr/local/bin/node_exporter [Install] WantedBy=multi-user.target EOF # 启动服务 sudo systemctl daemon-reload sudo systemctl enable node_exporter sudo systemctl start node_exporter

3.3 安装NVIDIA GPU Exporter

如果你的服务器有NVIDIA GPU，可以安装这个组件：

# 安装依赖 sudo apt-get update sudo apt-get install -y golang-go # 下载编译 git clone https://github.com/utkuozdemir/nvidia_gpu_exporter.git cd nvidia_gpu_exporter make build # 安装 sudo cp bin/nvidia_gpu_exporter /usr/local/bin/ sudo chmod +x /usr/local/bin/nvidia_gpu_exporter # 创建服务 sudo tee /etc/systemd/system/nvidia_gpu_exporter.service > /dev/null <<EOF [Unit] Description=NVIDIA GPU Exporter After=network.target [Service] ExecStart=/usr/local/bin/nvidia_gpu_exporter Restart=always [Install] WantedBy=multi-user.target EOF # 启动服务 sudo systemctl daemon-reload sudo systemctl enable nvidia_gpu_exporter sudo systemctl start nvidia_gpu_exporter

3.4 安装Grafana

最后安装可视化工具Grafana：

# 添加Grafana仓库 sudo apt-get install -y apt-transport-https software-properties-common wget wget -q -O - https://packages.grafana.com/gpg.key | sudo apt-key add - echo "deb https://packages.grafana.com/oss/deb stable main" | sudo tee -a /etc/apt/sources.list.d/grafana.list sudo apt-get update # 安装Grafana sudo apt-get install -y grafana # 启动服务 sudo systemctl enable grafana-server sudo systemctl start grafana-server

4. 配置监控数据采集

4.1 配置Prometheus采集目标

编辑Prometheus配置文件/etc/prometheus/prometheus.yml：

global: scrape_interval: 15s evaluation_interval: 15s scrape_configs: - job_name: 'prometheus' static_configs: - targets: ['localhost:9090'] - job_name: 'node' static_configs: - targets: ['localhost:9100'] - job_name: 'nvidia_gpu' static_configs: - targets: ['localhost:9835'] - job_name: 'deoldify' metrics_path: '/metrics' static_configs: - targets: ['localhost:7860']

重启Prometheus使配置生效：

sudo systemctl restart prometheus

4.2 为DeOldify添加指标导出

在DeOldify服务中添加一个简单的指标导出接口：

创建monitoring/metrics_exporter.py：

from prometheus_client import start_http_server, Gauge, Counter import psutil import time from threading import Thread # 定义监控指标 CPU_USAGE = Gauge('deoldify_cpu_usage', 'CPU使用率') MEMORY_USAGE = Gauge('deoldify_memory_usage', '内存使用量(MB)') REQUEST_COUNT = Counter('deoldify_requests', '总请求数') ACTIVE_REQUESTS = Gauge('deoldify_active_requests', '当前活跃请求数') def collect_system_metrics(): while True: # 收集CPU和内存指标 CPU_USAGE.set(psutil.cpu_percent()) MEMORY_USAGE.set(psutil.virtual_memory().used / 1024 / 1024) # 转换为MB time.sleep(5) def start_metrics_server(port=8000): # 启动指标服务器 start_http_server(port) # 启动系统指标收集线程 Thread(target=collect_system_metrics, daemon=True).start()

然后在主服务中集成：

# 在app.py开头添加 from monitoring.metrics_exporter import start_metrics_server start_metrics_server() # 在请求处理函数中添加指标记录 @app.route('/colorize', methods=['POST']) def colorize_image(): ACTIVE_REQUESTS.inc() REQUEST_COUNT.inc() try: # 原有处理逻辑 result = process_image(request.files['image']) return jsonify(result) finally: ACTIVE_REQUESTS.dec()

5. 配置Grafana仪表盘

5.1 登录Grafana

访问http://你的服务器IP:3000，默认用户名密码是admin/admin，首次登录会要求修改密码。

5.2 添加Prometheus数据源

点击左侧齿轮图标 → Data sources
选择Prometheus
URL填写http://localhost:9090
点击Save & Test

5.3 创建监控仪表盘

新建一个仪表盘，添加以下面板：

1. 系统资源面板

CPU使用率：

100 - (avg by(instance)(irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)

内存使用：

node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100

2. GPU监控面板（如果有GPU）

GPU使用率：
```
nvidia_gpu_duty_cycle * 100
```

GPU内存：

nvidia_gpu_memory_used_bytes / 1024 / 1024 # 转换为MB

3. DeOldify服务面板

请求数：
```
rate(deoldify_requests[5m])
```
活跃请求：
```
deoldify_active_requests
```

6. 设置告警规则（可选）

6.1 配置Prometheus告警

创建/etc/prometheus/alert_rules.yml：

groups: - name: deoldify_alerts rules: - alert: HighCPUUsage expr: 100 - (avg by(instance)(irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80 for: 5m labels: severity: warning annotations: summary: "CPU使用率过高" - alert: HighMemoryUsage expr: node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes < 0.2 for: 5m labels: severity: warning annotations: summary: "内存不足"

在prometheus.yml中添加：

rule_files: - 'alert_rules.yml'

重启Prometheus：

sudo systemctl restart prometheus

7. 验证监控系统

检查所有服务是否正常运行：

sudo systemctl status prometheus sudo systemctl status node_exporter sudo systemctl status nvidia_gpu_exporter # 如果有GPU sudo systemctl status grafana-server

访问以下地址验证：

Prometheus:http://服务器IP:9090
Grafana:http://服务器IP:3000
Node Exporter:http://服务器IP:9100/metrics
DeOldify指标:http://服务器IP:8000/metrics

8. 总结与后续优化

现在你已经拥有了一个完整的DeOldify服务监控系统，可以：

实时查看服务器资源使用情况
监控服务请求量和性能
设置关键指标的告警

日常监控建议：

重点关注GPU使用率和温度
注意内存使用趋势，防止内存泄漏
观察请求量变化，了解服务使用情况

后续优化方向：

添加更多业务指标，如上色图片数量、处理时间分布等
配置更丰富的告警渠道（邮件、钉钉等）
设置自动化扩容策略

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

小白也能搞定的DeOldify服务监控：安装、配置、可视化一步到位