MediaPipe人体姿态估计入门：33个关键点命名与位置对照表-平芜编程栈

MediaPipe人体姿态估计入门：33个关键点命名与位置对照表

1. 引言：AI 人体骨骼关键点检测的实用价值

随着计算机视觉技术的发展，人体姿态估计（Human Pose Estimation）已成为智能健身、动作捕捉、虚拟试衣、人机交互等领域的核心技术之一。其核心目标是从单张RGB图像中定位人体的关键关节点，并通过连接这些点构建出“火柴人”式的骨架结构，从而理解人体的姿态和运动状态。

在众多开源方案中，Google推出的MediaPipe Pose模型凭借其高精度、低延迟和良好的跨平台支持能力，成为目前最主流的轻量级姿态估计算法之一。它能够在普通CPU上实现毫秒级推理，同时输出多达33个3D关键点，覆盖面部、躯干、四肢等部位，极大提升了姿态分析的细粒度与实用性。

本文将深入解析 MediaPipe Pose 输出的33个关键点的名称、编号及其对应的人体位置，并结合可视化逻辑帮助开发者快速掌握该模型的输出格式，为后续的动作识别、姿态比对或Web应用开发打下坚实基础。

2. MediaPipe Pose 模型核心特性解析

2.1 模型架构与工作原理

MediaPipe Pose 基于 BlazePose 架构设计，采用两阶段检测策略：

人体检测器：首先使用轻量级SSD检测器定位图像中的人体区域。
关键点回归器：在裁剪后的人体ROI上运行姿态估计网络，直接回归33个关键点的(x, y, z)坐标。

其中，z坐标表示深度信息（相对深度，非真实距离），用于增强3D姿态感知能力，尤其适用于遮挡或侧身场景下的鲁棒性提升。

该模型提供两种版本： -Lightweight：适合移动端和实时视频流处理 -Full：更高精度，适用于静态图像分析

本项目集成的是 Full 版本，在保持CPU高效运行的同时，确保了复杂动作（如瑜伽、舞蹈）下的关键点稳定性。

2.2 关键输出：33个3D骨骼关键点详解

MediaPipe Pose 定义了33个标准化的关键点，按身体区域划分为五类：面部、左手、右手、躯干、脚部。每个关键点都有唯一的索引（0~32）和语义名称。

以下是完整的关键点命名与位置对照表，便于开发者查阅与映射：

索引	名称 (英文)	中文含义	所属区域
0	nose	鼻子	面部
1	left_eye_inner	左眼内角	面部
2	left_eye	左眼球中心	面部
3	left_eye_outer	左眼外角	面部
4	right_eye_inner	右眼内角	面部
5	right_eye	右眼球中心	面部
6	right_eye_outer	右眼外角	面部
7	left_ear	左耳	面部
8	right_ear	右耳	面部
9	mouth_left	嘴巴左侧	面部
10	mouth_right	嘴巴右侧	面部
11	left_shoulder	左肩	躯干
12	right_shoulder	右肩	躯干
13	left_elbow	左肘	上肢
14	right_elbow	右肘	上肢
15	left_wrist	左腕	上肢
16	right_wrist	右腕	上肢
17	left_pinky	左小指根部	手部
18	right_pinky	右小指根部	手部
19	left_index	左食指根部	手部
20	right_index	右食指根部	手部
21	left_thumb	左拇指根部	手部
22	right_thumb	右拇指根部	手部
23	left_hip	左髋	躯干
24	right_hip	右髋	躯干
25	left_knee	左膝	下肢
26	right_knee	右膝	下肢
27	left_ankle	左踝	下肢
28	right_ankle	右踝	下肢
29	left_heel	左脚后跟	脚部
30	right_heel	右脚后跟	脚部
31	left_foot_index	左脚大脚趾根部	脚部
32	right_foot_index	右脚大脚趾根部	脚部

📌注意：
- 所有坐标的(x, y)是归一化值（范围 [0,1]），需乘以图像宽高转换为像素坐标。
-z表示相对于鼻子的深度偏移，数值越小表示越靠近摄像头。
- 面部关键点虽不参与骨架绘制，但可用于头部朝向判断或表情辅助分析。

2.3 骨架连接逻辑与可视化规则

MediaPipe 内置了一套标准的骨架连接规则，定义了哪些关键点之间应被连线形成“火柴人”。以下为常用连接对（以索引表示）：

POSE_CONNECTIONS = [ (0, 1), # 鼻子 → 左眼内角 (1, 2), # 左眼内角 → 左眼球 (2, 3), # 左眼球 → 左眼外角 (3, 7), # 左眼外角 → 左耳 (0, 4), # 鼻子 → 右眼内角 (4, 5), # 右眼内角 → 右眼球 (5, 6), # 右眼球 → 右眼外角 (6, 8), # 右眼外角 → 右耳 (9, 10), # 嘴巴左 → 嘴巴右 (11, 12), # 左肩 ↔ 右肩 (11, 13), # 左肩 → 左肘 (13, 15), # 左肘 → 左腕 (15, 17), # 左腕 → 左小指 (15, 19), # 左腕 → 左食指 (15, 21), # 左腕 → 左拇指 (17, 19), # 左小指 → 左食指 (12, 14), # 右肩 → 右肘 (14, 16), # 右肘 → 右腕 (16, 18), # 右腕 → 右小指 (16, 20), # 右腕 → 右食指 (16, 22), # 右腕 → 右拇指 (18, 20), # 右小指 → 右食指 (11, 23), # 左肩 → 左髋 (12, 24), # 右肩 → 右髋 (23, 24), # 左髋 ↔ 右髋 (23, 25), # 左髋 → 左膝 (25, 27), # 左膝 → 左踝 (27, 29), # 左踝 → 左脚跟 (29, 31), # 左脚跟 → 左脚大脚趾 (27, 31), # 左踝 → 左脚大脚趾 (24, 26), # 右髋 → 右膝 (26, 28), # 右膝 → 右踝 (28, 30), # 右踝 → 右脚跟 (30, 32), # 右脚跟 → 右脚大脚趾 (28, 32), # 右踝 → 右脚大脚趾 ]

在 WebUI 中： -红点：所有关键点均以红色圆圈高亮显示 -白线：按照上述连接关系绘制白色线条，构成完整骨架

这种设计既保证了可读性，又避免了冗余连线干扰视觉判断。

3. 实践应用：如何提取并使用关键点数据

3.1 环境准备与代码调用示例

虽然本镜像已封装好Web界面，但了解底层API有助于进行二次开发。以下是一个典型的 Python 调用片段：

import cv2 import mediapipe as mp # 初始化姿态估计模块 mp_pose = mp.solutions.pose pose = mp_pose.Pose( static_image_mode=True, model_complexity=1, enable_segmentation=False, min_detection_confidence=0.5 ) # 读取图像 image = cv2.imread("person.jpg") rgb_image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB) # 执行姿态估计 results = pose.process(rgb_image) if results.pose_landmarks: h, w, _ = image.shape for idx, landmark in enumerate(results.pose_landmarks.landmark): # 将归一化坐标转为像素坐标 cx, cy = int(landmark.x * w), int(landmark.y * h) # 根据索引选择颜色或大小（例如：左肩标蓝） color = (0, 0, 255) # 默认红色 if idx == 11: # 左肩 color = (255, 0, 0) elif idx == 12: # 右肩 color = (0, 255, 0) cv2.circle(image, (cx, cy), 5, color, -1) cv2.putText(image, str(idx), (cx, cy), cv2.FONT_HERSHEY_SIMPLEX, 0.4, (255,255,255), 1) cv2.imwrite("output_with_indices.jpg", image) pose.close()

此代码会输出一张带编号的关键点标注图，方便调试与验证。

3.2 常见应用场景建议

应用场景	推荐使用的关键点组合	技术要点
动作识别	肩、肘、腕、髋、膝、踝	计算关节角度变化趋势
健身指导	左右对称点对比（如双肩/双膝高度差）	判断姿势是否标准
跌倒检测	髋部与脚部垂直距离 + 头部方向	结合速度与加速度估算
虚拟换装	躯干关键点 + 四肢轮廓	需配合分割模型获取身体掩码
手势增强	手部关键点（17-22）	可扩展为手势分类输入特征