HY-Motion 1.0企业级部署：支持HTTPS反向代理、JWT鉴权与用量监控仪表盘-平芜编程栈

HY-Motion 1.0企业级部署：支持HTTPS反向代理、JWT鉴权与用量监控仪表盘

1. 为什么企业需要一个“能管得住”的动作生成服务

你刚在本地跑通了HY-Motion 1.0，输入一句英文提示词，几秒后3D数字人就流畅地完成了深蹲推举——很酷。但当你想把它接入公司内部的AI中台、给市场部同事开放使用、或者嵌入到客户演示系统里时，问题就来了：

怎么让非技术人员安全访问？总不能让他们连SSH进服务器敲命令吧。
多个部门共用一套服务，怎么知道谁用了多少次？谁在生成高耗时动作拖慢整体响应？
如果有人把接口地址发到公网，会不会被恶意调用刷爆GPU？有没有办法限制调用频率和权限？
现有Gradio界面只适合调试，没法嵌入企业SSO登录体系，更没有实时用量看板。

这些不是“锦上添花”的功能，而是企业落地AI能力的基础设施门槛。HY-Motion 1.0开源版自带Gradio工作站，但真正要进生产环境，它缺的不是算力，而是可管理、可审计、可集成的能力。本文不讲模型原理，不跑demo效果，只聚焦一件事：如何把HY-Motion 1.0变成一个企业级API服务——支持HTTPS加密通信、基于JWT的细粒度权限控制、以及开箱即用的用量监控仪表盘。

2. 企业级部署四步走：从单机Gradio到生产就绪服务

2.1 架构设计：为什么不用Nginx直接反向代理Gradio？

Gradio默认启动的是HTTP服务（http://localhost:7860），直接用Nginx做反向代理看似简单，但会遇到三个硬伤：

无法注入认证头：Gradio本身不校验JWT，Nginx只能做基础IP或路径拦截，做不到“张三能调用/squat，李四只能调用/stretch”。
无法采集结构化用量数据：Nginx日志只有时间、IP、状态码，无法记录“本次请求生成了5秒动作，消耗显存18.2GB，耗时4.7秒”这类业务指标。
HTTPS终止位置不合理：若在Nginx层终止HTTPS，Gradio仍走HTTP明文通信，内部网络虽可控，但不符合等保对服务间通信加密的要求。

因此，我们采用分层代理架构：

客户端 → Nginx（HTTPS终止 + 基础路由） ↓ FastAPI网关（JWT校验 + 用量埋点 + 限流） ↓ HY-Motion推理服务（Gradio或自定义API模式）

这个设计让每层各司其职：Nginx专注网络层安全，FastAPI专注业务层治理，HY-Motion专注模型推理。

2.2 第一步：启用HTTPS反向代理（Nginx配置）

关键点：不修改HY-Motion代码，仅通过Nginx配置实现全链路HTTPS。

假设你已申请好域名motion.yourcompany.com和对应SSL证书（.pem和.key文件），将以下配置保存为/etc/nginx/conf.d/motion.conf：

upstream motion_backend { server 127.0.0.1:8000; # FastAPI网关端口 } server { listen 443 ssl http2; server_name motion.yourcompany.com; ssl_certificate /etc/ssl/certs/motion.pem; ssl_certificate_key /etc/ssl/private/motion.key; ssl_protocols TLSv1.2 TLSv1.3; ssl_ciphers ECDHE-ECDSA-AES128-GCM-SHA256:ECDHE-RSA-AES128-GCM-SHA256; location / { proxy_pass http://motion_backend; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_set_header X-Forwarded-Proto $scheme; proxy_http_version 1.1; proxy_set_header Upgrade $http_upgrade; proxy_set_header Connection "upgrade"; proxy_read_timeout 300; # 动作生成可能耗时较长 } } server { listen 80; server_name motion.yourcompany.com; return 301 https://$server_name$request_uri; }

执行sudo nginx -t && sudo systemctl reload nginx后，访问https://motion.yourcompany.com即可看到HTTPS绿色锁标。注意：此处proxy_pass指向的是后续要搭建的FastAPI网关（端口8000），而非直接指向Gradio的7860端口。

2.3 第二步：构建JWT鉴权网关（FastAPI实现）

核心逻辑：所有请求先过网关，验证JWT有效性，并提取用户身份、角色、配额信息。

创建gateway/main.py：

from fastapi import FastAPI, Depends, HTTPException, status, Request from fastapi.security import HTTPBearer, HTTPAuthorizationCredentials from jose import JWTError, jwt from pydantic import BaseModel from typing import Dict, Any, Optional import time import asyncio import logging # 配置日志 logging.basicConfig(level=logging.INFO) logger = logging.getLogger(__name__) app = FastAPI(title="HY-Motion API Gateway", docs_url=None, redoc_url=None) # JWT配置（生产环境请使用环境变量） SECRET_KEY = "your-super-secret-jwt-key-change-in-prod" # 必须更换！ ALGORITHM = "HS256" # 模拟用户数据库（实际应对接LDAP/企业微信/钉钉） USERS_DB = { "user_001": {"username": "zhangsan", "role": "developer", "quota": 100}, "user_002": {"username": "lisi", "role": "marketing", "quota": 50}, } class TokenData(BaseModel): sub: str username: str role: str quota: int security = HTTPBearer() async def verify_token(credentials: HTTPAuthorizationCredentials = Depends(security)) -> TokenData: try: payload = jwt.decode(credentials.credentials, SECRET_KEY, algorithms=[ALGORITHM]) user_id: str = payload.get("sub") if user_id is None: raise HTTPException(status_code=status.HTTP_401_UNAUTHORIZED, detail="Invalid token") user = USERS_DB.get(user_id) if user is None: raise HTTPException(status_code=status.HTTP_401_UNAUTHORIZED, detail="User not found") return TokenData(sub=user_id, **user) except JWTError: raise HTTPException(status_code=status.HTTP_401_UNAUTHORIZED, detail="Invalid token") @app.middleware("http") async def log_and_track_usage(request: Request, call_next): start_time = time.time() # 记录请求开始（可对接Prometheus或写入数据库） logger.info(f"Request: {request.method} {request.url.path} from {request.client.host}") response = await call_next(request) process_time = time.time() - start_time # 记录完成（含耗时、状态码） logger.info(f"Response: {response.status_code} in {process_time:.2f}s") return response @app.post("/v1/generate") async def generate_motion( request: Request, token_data: TokenData = Depends(verify_token), ): # 这里转发请求到HY-Motion服务（Gradio或自定义API） # 实际需用httpx.AsyncClient调用 http://127.0.0.1:7860/api/predict # 为简化示例，返回模拟响应 return { "status": "success", "task_id": "task_abc123", "estimated_time": 4.2, "user_quota_remaining": token_data.quota - 1 } @app.get("/health") def health_check(): return {"status": "ok", "timestamp": int(time.time())}

安装依赖并启动：

pip install fastapi uvicorn python-jose[cryptography] python-multipart uvicorn gateway.main:app --host 0.0.0.0 --port 8000 --reload

此时，所有请求必须携带有效JWT：

curl -X POST https://motion.yourcompany.com/v1/generate \ -H "Authorization: Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9..." \ -d '{"prompt":"A person does a yoga pose"}'

2.4 第三步：接入用量监控仪表盘（Grafana + Prometheus）

目标：实时查看每分钟调用次数、平均响应时间、各用户用量排名、GPU显存占用。

2.4.1 在FastAPI中暴露Prometheus指标

安装prometheus-fastapi-instrumentator：

pip install prometheus-fastapi-instrumentator

修改gateway/main.py，在app = FastAPI(...)后添加：

from prometheus_fastapi_instrumentator import Instrumentator # 初始化指标收集器 instrumentator = Instrumentator( should_group_status_codes=True, should_ignore_untemplated=True, should_respect_env_var=False, excluded_handlers=["/health", "/metrics"], ) instrumentator.instrument(app).expose(app)

启动后，访问http://localhost:8000/metrics即可看到标准Prometheus指标，如：

http_request_duration_seconds_bucket{le="0.1",method="POST",status_code="200"} 12 http_request_duration_seconds_sum{method="POST",status_code="200"} 3.24

2.4.2 部署Grafana看板

使用Docker一键启动Grafana：

docker run -d -p 3000:3000 --name grafana -v $(pwd)/grafana-provisioning:/etc/grafana/provisioning grafana/grafana-enterprise

创建grafana-provisioning/dashboards/motion-dashboard.json，定义用量看板（含调用趋势、用户TOP5、错误率、GPU监控等）。
在Grafana UI中添加Prometheus数据源，地址填http://host.docker.internal:8000/metrics（Mac/Windows）或宿主机IP（Linux）。

最终仪表盘效果：

实时折线图：过去1小时每分钟调用数
饼图：各角色（developer/marketing）用量占比
表格：今日用量Top5用户及剩余配额
GPU监控：通过nvidia-smiexporter补充显存/温度/功耗曲线

2.5 第四步：平滑迁移Gradio到生产模式

关键决策：不废弃Gradio，而是将其作为后端推理引擎，由FastAPI统一调度。

HY-Motion原生Gradio服务（start.sh）默认监听0.0.0.0:7860，但企业场景需关闭其Web UI，仅暴露API端点：

修改start.sh，在启动Gradio时添加参数：

python -m gradio.launch --share False --server_name 0.0.0.0 --server_port 7860 --api_open --enable_queue

--api_open开启API端点（/api/predict），--enable_queue启用请求队列防并发压垮GPU。
在FastAPI网关中，用异步HTTP客户端调用该API：

import httpx async def call_hymotion_api(prompt: str) -> Dict[str, Any]: async with httpx.AsyncClient(timeout=300.0) as client: response = await client.post( "http://127.0.0.1:7860/api/predict", json={"data": [prompt, 5.0, 1]} # prompt, duration, seed ) return response.json()

这样既保留了Gradio的成熟推理逻辑，又通过网关实现了企业级治理能力。

3. 权限与配额：JWT不只是登录，更是精细化运营工具

3.1 JWT载荷设计：承载业务语义

企业级JWT不应只含user_id，而应包含可驱动策略的字段：

{ "sub": "user_001", "username": "zhangsan", "role": "developer", "quota": 100, "max_duration": 10.0, "allowed_actions": ["squat", "stretch", "walk"], "exp": 1735689600 }

quota：每日调用配额，网关每次成功调用后递减并写入Redis缓存。
max_duration：限制单次动作最大时长，防止恶意请求耗尽GPU。
allowed_actions：白名单机制，市场部用户只能生成walk类动作，研发部可调用全部。

FastAPI中间件可动态读取这些字段，实现策略路由：

if token_data.role == "marketing" and prompt not in token_data.allowed_actions: raise HTTPException(403, "Action not permitted for your role")

3.2 配额扣减与续订：Redis原子操作保障一致性

避免数据库IO瓶颈，使用Redis实现毫秒级配额检查：

import redis r = redis.Redis(host='localhost', port=6379, db=0) def check_and_decrease_quota(user_id: str) -> bool: key = f"quota:{user_id}" # Lua脚本保证原子性：检查+扣减 script = """ local current = redis.call('GET', KEYS[1]) if not current or tonumber(current) <= 0 then return 0 end redis.call('DECR', KEYS[1]) return 1 """ return r.eval(script, 1, key) == 1

每日凌晨自动续订配额（通过Celery或系统cron）：

# 每日0点重置所有用户配额 redis-cli KEYS 'quota:*' | xargs -I {} redis-cli SET {} 100

4. 安全加固：不止于HTTPS和JWT

4.1 请求体校验：防恶意Prompt注入

HY-Motion对输入敏感，需在网关层过滤危险内容：

import re def sanitize_prompt(prompt: str) -> str: # 移除控制字符、超长文本、潜在注入关键词 if len(prompt) > 200: raise HTTPException(400, "Prompt too long (max 200 chars)") if re.search(r"[<>'\";{}\\|&\$\(\)]", prompt): raise HTTPException(400, "Invalid characters detected") # 强制英文（符合模型要求） if not re.match(r"^[a-zA-Z0-9\s\.,!?-]+$", prompt): raise HTTPException(400, "Prompt must be in English") return prompt.strip()

4.2 GPU资源隔离：cgroups限制单请求显存

为防单个长动作请求占满显存，用cgroups v2限制Gradio进程：

# 创建GPU cgroup sudo mkdir -p /sys/fs/cgroup/gpu-motion echo "26G" | sudo tee /sys/fs/cgroup/gpu-motion/memory.max echo "nvidia.com/gpu=1" | sudo tee /sys/fs/cgroup/gpu-motion/devices.allow # 启动Gradio时加入cgroup sudo cgexec -g memory:gpu-motion python -m gradio.launch ...