ComfyUI视频模型入门指南：从零搭建到实战避坑-平芜编程栈

ComfyUI 视频模型入门指南：从零搭建到实战避坑

ComfyUI 把“节点”当成乐高积木，拖进画布就能跑通 4K 视频，而 Automatic1111 还在逐张出图；
它把 latent space 的时序一致性封装成 KSampler 节点，省掉手动写循环的麻烦；
最香的是显存分层渲染，一张 8G 卡也能啃下 3840×2160，不用换硬件就能先“上车”。

一、30 分钟搭出第一条视频工作流

环境准备
- 驱动 ≥ 535，CUDA ≥ 12.1，Python 3.10 虚拟环境
- pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
- 克隆官方库：git clone https://github.com/comfyanonymous/ComfyUI.git
- 把“ComfyUI/models/checkpoints”里先塞一个 SD1.5 或 SDXL 基础模型，跑通后再上视频扩展包（如 AnimateDiff、SVD）。
启动后端
在 ComfyUI 根目录：
```
python main.py --listen 0.0.0.0 --port 8188 --gpu-only
```
浏览器打开http://<ip>:8188就能看到空白画布。
拖节点 → 连管线
左侧右键菜单按顺序拖出：
- CheckpointLoaderSimple
- CLIPTextEncode（正向提示）
- CLIPTextEncode（负向）
- EmptyLatentVideo（决定帧数、分辨率）
- KSampler
- VAEDecode
- SaveVideo（或 PreviewVideo 先调通）
  连线逻辑与文生图一致，只是 EmptyLatentImage 换成 EmptyLatentVideo。
关键参数调优公式
经验公式：steps = 20 + 0.5 × frames，cfg = 7～9，denoise ≤ 0.75防崩帧。
KSampler 里把“add_noise”打开，帧间差异更柔和；
若出现色偏，把 VAE 的 tile_size 设 512 或 256，显存降 20%。

视频帧插值 Python API（带异常处理）
有时要让 16 帧变 48 帧，用 ComfyUI 的FILM节点或自己调接口：

import requests, json, sys WORKFLOW = json.load(open("film_interp_api.json")) WORKFLOW["prompt"]["15"]["inputs"]["frames"] = 48 # 目标帧数 WORKFLOW["prompt"]["15"]["inputs"]["multiplier"] = 3 # 插值倍数 try: resp = requests.post("http://127.0.0.1:8188/prompt", json={"prompt": WORKFLOW["prompt"]}, timeout=600) resp.raise_for_status() print("插值任务已提交:", resp.json()) except requests.exceptions.Timeout: print("超时，建议降低 multiplier 或检查显存") except Exception as e: print("帧插值失败:", e)

返回的prompt_id可轮询/history拿最终 mp4 路径。

显存不足？分层渲染方案
- 先在 EmptyLatentVideo 里把 height 砍半，跑通后打开“Slice VAE”选项；
- 或者用“Batch & Concat”思想：
  1. 把 64 帧拆成 4 组 16 帧，分别生成；
  2. 用 ImageConcat 节点在像素空间拼回；
  3. 最后统一进 VAE，避免一次性吃满 16 GB。
- 实测 RTX 3060 12G 跑 3840×2160×24fps，拆 3 段后峰值显存 9.8G，不叉出。

二、性能优化：让显卡跑到“甜点”

batch_size 对照表（供参考，单位：帧/次）
显卡型号显存 512×512×16 帧 1024×1024×16 帧备注
RTX 3060 12G 8 2 开 xformers
RTX 4070 12G 10 3 TensorRT + fp16
RTX 4090 24G 24 8 可上 4K 小批
原则：先跑满显存 80%，再逐步下调到不掉帧的最小值。
TensorRT 加速（以 4070 为例）
1. 安装：pip install tensorrt==8.6.1 torch-tensorrt
2. 导出 onnx：
```
python utils/export_trt.py --model checkpoints/svd_xt.safetensors --output onnx/svd_xt.onnx --fp16
```
3. 编译引擎：
```
trtexec --onnx=onnx/svd_xt.onnx --saveEngine=svd_xt_12g.trt --fp16 --builderPerf
```
4. 在 KSampler 高级选项里把“trt_engine_path”指向上一步生成的.trt，速度可 +35%，显存再省 1.2G。

显卡型号	显存	512×512×16 帧	1024×1024×16 帧	备注
RTX 3060	12G	8	2	开 xformers
RTX 4070	12G	10	3	TensorRT + fp16
RTX 4090	24G	24	8	可上 4K 小批

三、生产环境避坑清单

报错 code 128：CUDA illegal memory access
- 90% 是 VAE tile 尺寸与分辨率奇偶不一致，把 tile 设成 64 的整数倍；
- 若仍炸，开CUDA_LAUNCH_BLOCKING=1定位，再关 xformers 做对比。
视频闪烁 → 帧对齐技巧
- 在 EmptyLatentVideo 里把“motion_bucket_id”锁死同一随机种子；
- 加“FreeU”节点，把 b1=1.3、b2=1.4，可抑制跳变；
- 后处理用 ffmpeg 跑 pass：ffmpeg -i raw.mp4 -vf mpdecimate,setpts=N/FRAME_RATE/TB -c:a copy stable.mp4，删掉几乎重复的帧。
模型缓存目录权限
- Linux 下 ComfyUI 默认写/tmp/comfyui_cache，多用户会互相踩；
- 在extra_model_config.yaml加：
```
cache_dir: "/data/comfy_cache"
```
- 给目录 755，文件 644，避免 Docker 容器重启后写不进导致“can not open safetensors”。