HY-Motion 1.0保姆级教程：从零开始学3D动作生成-平芜编程栈

HY-Motion 1.0保姆级教程：从零开始学3D动作生成

[【免费下载链接】HY-Motion 1.0
腾讯混元3D数字人团队出品的十亿参数文生动作模型，支持高精度、长时序、电影级连贯性的3D动作生成。开箱即用，一键启动可视化工作站，让文字真正“动起来”。

项目地址：https://ai.gitcode.com/tencent_hunyuan/HY-Motion-1.0](https://ai.gitcode.com/tencent_hunyuan/HY-Motion-1.0/?utm_source=gitcode_aigc_v1_t0&index=top&type=card& "【免费下载链接】HY-Motion 1.0")

1. 这不是“又一个动作生成模型”，而是你第一次真正能用上的3D律动工具

你有没有试过在AI工具里输入“一个篮球运动员后仰跳投”，结果生成的动作要么关节扭曲、要么卡顿断帧、要么根本看不出是投篮？不是你提示词写得不好，而是大多数动作模型还在“认路”阶段——它们知道“投篮”这个词，但不知道肩、肘、腕、髋、膝如何协同发力，更不清楚重心转移与腾空轨迹的物理节奏。

HY-Motion 1.0 不同。它不只“理解”动作，它“会做”动作。

这不是靠堆砌训练数据的蛮力，而是把 Diffusion Transformer（DiT）的全局建模能力，和 Flow Matching（流匹配）对运动轨迹的连续性建模优势拧在一起。十亿参数不是数字游戏，是让每个关节在每一帧都拥有足够表达力的底气。你可以输入一句复合指令：“A person crouches low, then explodes upward into a spinning backflip landing softly on both feet”，它真能生成一段5秒内完成蹲踞、起跳、旋转、落地缓冲的完整动作序列，关节自然、重心稳定、落地瞬间膝盖微屈吸收冲击——就像真人录像。

更重要的是，它不挑硬件。哪怕你只有24GB显存的4090，也能跑通 Lite 版本；如果你追求电影级精度，26GB显存的完整版会给你每一帧都经得起慢放检验的流畅感。

这篇教程，不讲论文里的公式推导，不列晦涩的评估指标，只带你从按下第一个回车键开始，到亲手生成第一个可播放、可导出、可嵌入3D引擎的动作文件。全程无跳步，每一步都有命令、有截图逻辑、有避坑提醒。

2. 环境准备：三分钟完成本地部署

2.1 硬件与系统要求

HY-Motion 1.0 对硬件友好，但需明确两点：

显存是硬门槛：HY-Motion-1.0（完整版）最低需26GB 显存（如RTX 6000 Ada / A100 40G），HY-Motion-1.0-Lite（轻量版）最低需24GB 显存（如RTX 4090）。显存不足将直接报错退出，不支持自动降级。
系统兼容性：仅支持Linux（Ubuntu 22.04 LTS 推荐）。Windows 和 macOS 用户请使用 WSL2 或云服务器（如CSDN星图镜像广场预装环境）。

** 小贴士**：如果你用的是笔记本或工作站，建议先运行nvidia-smi确认显存总量，并关闭占用显存的其他进程（如Chrome GPU加速、其他AI服务）。

2.2 一键启动可视化工作站

镜像已预装全部依赖（PyTorch 2.4+cu121、xformers、Gradio、PyTorch3D等），无需手动安装任何包。你只需执行一条命令：

bash /root/build/HY-Motion-1.0/start.sh

几秒后，终端将输出类似以下信息：

Running on local URL: http://localhost:7860 To create a public link, set `share=True` in `launch()`.

此时，打开浏览器，访问http://localhost:7860/，你将看到这个界面：

![HY-Motion Gradio 工作站主界面示意图：左侧为英文提示词输入框，中间为实时生成进度条与帧预览窗，右侧为参数调节区（含动作时长、种子数、采样步数）]

这个界面就是你的“动作创意实验室”。所有操作都在这里完成，无需写代码、无需调参、无需理解扩散步。

2.3 首次运行常见问题排查

问题：访问http://localhost:7860显示连接被拒绝
原因：端口被占用或服务未启动成功。
解决：检查终端是否报错；执行lsof -i :7860查看占用进程并kill -9 <PID>；重试启动脚本。
问题：启动后界面空白，控制台报CUDA out of memory
原因：显存不足，或未正确加载 Lite 版本。
解决：确认你运行的是/root/build/HY-Motion-1.0-Lite/start.sh（注意路径中带-Lite）；或按文档建议设置--num_seeds=1并将动作长度控制在5秒内。
问题：输入提示词后点击“Generate”，进度条不动
原因：提示词含中文、情绪词或交互物体（如“开心地”“拿着剑”）。
解决：严格使用英文，聚焦躯干与四肢动态，参考下方“提示词黄金模板”。

3. 提示词工程：用对一句话，效果提升十倍

HY-Motion 1.0 的强大，建立在“精准描述”之上。它不是万能翻译器，而是一位严苛但专业的编舞师——你给它清晰的指令，它还你专业的演绎。

3.1 黄金法则：60词以内，只说“怎么动”

有效提示词 =主体 + 核心动作 + 关节动态 + 时空约束

维度	正确做法	错误做法	为什么
主体	`A person`,`A dancer`,`A martial artist`（仅限人形）	`A cat`,`A robot`,`A skeleton`	模型仅在人形骨架上训练，其他形态无法泛化
核心动作	`performs a cartwheel`,`swings arms forward and backward`,`steps sideways with left foot first`	`feels joyful`,`looks elegant`,`is professional`	情绪、气质、职业属性无法映射为关节运动
关节动态	`bends knees deeply`,`rotates shoulders 90 degrees`,`lifts right leg to hip height`	`wears red shoes`,`has long hair`,`stands in a forest`	外观与环境不参与动作生成，纯属干扰项
时空约束	`for 3 seconds`,`in a smooth arc`,`with continuous motion`	`in slow motion`,`as a loop`,`repeating endlessly`	当前版本不支持循环步态与速度重映射

3.2 三类高频场景的提示词模板（直接复制修改）

** 复合动作（推荐新手练手）**
A person squats down slowly, then jumps straight up with both arms raised overhead, lands softly bending knees.
效果特点：蹲→跳→落，三段式动力链完整，关节角度变化大，最能体现模型对物理规律的建模能力。

** 位移动作（测试空间感知）**
A person walks forward, steps up onto a 30cm platform, then turns 90 degrees to the right and continues walking.
效果特点：包含水平位移、垂直抬升、方向旋转，考验重心转移与平衡控制。

** 日常动作（验证自然度）**
A person sits on a chair, stands up fully, stretches both arms high above head, then lowers them slowly to sides.
效果特点：节奏舒缓，动作幅度小但细节丰富（如起身时腰背伸展、抬臂时肩胛骨滑动），最易暴露不自然感。

3.3 为什么不能写“愤怒地”或“穿着裙子”？

这不是限制，而是设计选择。HY-Motion 的技术栈分为两层：动作生成层（本模型） +外观渲染层（由Hunyuan3D-Paint等模型负责）。前者专注“骨骼怎么动”，后者负责“皮肤、衣服、材质怎么随动”。强行在动作层塞入外观描述，就像让舞蹈老师同时设计服装——既分散注意力，又降低动作精度。

所以，请放心把“穿什么”“在哪拍”交给后续流程。你现在要做的，就是让动作本身无可挑剔。

4. 生成与导出：从文字到可播放动作文件的完整闭环

4.1 在Gradio界面完成一次生成

输入提示词：粘贴上方任一模板，或按黄金法则自写（务必英文、60词内）；
设置关键参数：
- Motion Duration (seconds)：建议新手从3开始，熟练后逐步加至5；
- Number of Seeds：设为1（单次生成，省显存）；
- Sampling Steps：默认50，足够；若追求极致细节可调至75（耗时增加约40%）；
点击 Generate：进度条开始走，约30–90秒（取决于显卡与动作长度），中间会实时刷新帧预览；
查看结果：生成完成后，界面中央显示.mp4预览视频，右下角提供Download MP4按钮。

** 注意**：MP4 是渲染预览，用于快速验证动作质量。如需导入Blender、Unity等专业软件，请导出FBX格式（见4.2节）。

4.2 导出FBX：让动作真正进入你的3D工作流

MP4好看，但无法驱动角色。FBX才是工业标准。HY-Motion 提供了命令行导出接口，三步搞定：

# 进入模型目录 cd /root/build/HY-Motion-1.0 # 执行导出命令（以刚才生成的动作为例） python export_fbx.py \ --prompt "A person squats down slowly, then jumps straight up..." \ --duration 3 \ --seed 42 \ --output_dir /root/output/fbx/

执行后，/root/output/fbx/下将生成：

motion_20250726_142345.fbx（带时间轴的骨骼动画）
motion_20250726_142345.glb（轻量WebGL格式，可直接拖入Three.js预览）

🔧 在Blender中使用：打开Blender →File→Import→FBX (.fbx)→ 选择文件 → 勾选Automatic Bone Orientation→ 点击Import FBX。导入后，你将看到一个T-pose骨架，播放时间轴即可看到动作。

🎮 在Unity中使用：将.fbx文件拖入Assets文件夹 → 在Inspector面板中，将Rig类型设为Humanoid→ 点击Configure...自动映射骨骼 → 保存后即可拖拽到任意Avatar上。

4.3 质量自查清单（生成后必看）

别急着导出，花30秒对照以下清单检查：

关节无翻转：手腕、脚踝、膝盖是否出现180度反向弯曲？（如有，提示词可能含歧义动词，如“twist”应改为“rotate”）
重心稳：站立/落地时双脚是否始终接触地面？跳跃最高点身体是否悬空合理？
节奏自然：蹲下是否比站起慢？起跳是否比落地快？（符合真实肌肉发力特性）
无抖动：静止帧（如起始T-pose）是否完全稳定？（抖动说明采样步数不足，可重试+75步）

发现一项不满足？不要删掉重来。回到提示词，微调一个动词——把jumps改成leaps，把steps改成glides，往往就能修复。

5. 进阶技巧：让动作更可控、更专业、更省资源

5.1 种子（Seed）控制：复现与微调的钥匙

每次生成都带一个随机种子（默认随机）。但当你找到一个接近理想的动作，想在此基础上微调时：

记录本次生成的seed值（界面右上角显示，如Seed: 12345）；
修改提示词（例如把jumps改为leaps），保持 seed 不变；
重新生成——你会得到一个结构相似、仅细节不同的新动作。

这比从零开始试错快10倍，是专业工作流的核心习惯。

5.2 动作长度与显存的平衡术

5秒动作 ≈ 150帧，对显存压力最大。但实际项目中，你往往只需要关键片段。HY-Motion 支持“裁剪式生成”：

# 只生成第30帧到第90帧（即1秒到3秒的中间段） python generate_clip.py \ --prompt "A person throws a baseball forward with full arm extension" \ --start_frame 30 \ --end_frame 90 \ --fps 30

这样，你用3秒的显存消耗，获得了最精华的发力-释放-随动三阶段，导出的FBX也更轻量。

5.3 批量生成：用CSV批量喂指令，解放双手

当你要为游戏角色生成10套待机动作、20种攻击变体时，手动输提示词不现实。HY-Motion 内置 CSV 批处理模式：

准备prompts.csv文件，内容如下：

prompt,duration,seed "A person bows deeply at waist, hands together",3,1001 "A person snaps fingers twice with right hand",2,1002 "A person waves hand side-to-side slowly",3,1003

执行命令：

python batch_generate.py --csv prompts.csv --output_dir /root/output/batch/

10分钟后，/root/output/batch/下将生成对应数量的MP4与FBX。

** 提示**：CSV中的seed列可留空，系统将自动分配；duration单位为秒，支持小数（如2.5）。

6. 总结：你已经掌握了3D动作生成的底层逻辑

回顾这一路：

你不再把“生成动作”当成黑盒魔法，而是清楚知道：显存决定起点，提示词决定上限，种子决定复现性；
你学会了用“人形主体+关节动态+时空约束”的三段式语法，写出模型真正能执行的指令；
你掌握了从Gradio预览，到FBX导出，再到Blender/Unity集成的完整生产链；
你拥有了种子控制、片段裁剪、CSV批量三大进阶武器，足以应对中小规模项目需求。

HY-Motion 1.0 的意义，不在于它有多大的参数量，而在于它把过去需要动作捕捉设备、专业动画师、数周打磨的3D律动，压缩成了一句话、一分钟、一次点击。

下一步，试试用它生成一套武侠角色的“起手式-出招-收势”三连击；或者为你的虚拟主播设计一组直播专用的手势库。当你第一次看到自己写的文字，在3D空间里真实地动起来，那种创造的实感，远胜于任何技术参数。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

HY-Motion 1.0保姆级教程：从零开始学3D动作生成