从像素到行动:
镜像视界构建具身智能的三维空间认知引擎
——面向真实世界机器人的空间智能关键技术白皮书
发布单位:镜像视界(浙江)科技有限公司
摘要
具身智能(Embodied Intelligence / Physical AI)正成为人工智能迈向真实物理世界的关键方向。然而,当前机器人系统在复杂现实环境中的应用仍面临根本瓶颈:视觉系统能够“看见”,却难以形成稳定、可计算、可行动的空间认知,从而制约决策与行为能力。
镜像视界(浙江)科技有限公司提出并系统化实现了一套基于视频的三维空间认知引擎,通过像素级空间坐标反演、多视角视频融合、动态目标三维建模与行为理解,将传统视觉感知结果升级为可直接驱动机器人行动的空间状态表达。
本白皮书系统阐述该技术体系在具身智能领域的核心突破,并在国际 Physical AI 技术坐标系下,对其工程价值与差异化路径进行对比论证。
第一章 具身智能的根本挑战:机器人为何“难以行动”
具身智能的本质,并非更大的模型或更复杂的策略,而在于智能体是否真正理解其所处的物理空间,并能在其中形成稳定、可预测的行动。
现实中,机器人系统普遍面临以下结构性问题:
视觉系统输出以二维检测或语义标签为主
空间信息碎片化,缺乏统一坐标体系
感知、决策与行动割裂,难以形成闭环
在动态人群、多目标、多遮挡的真实环境中,上述问题被进一步放大,导致机器人只能“被动反应”,难以具备具身智能所要求的连续、前瞻、可控行动能力。
第二章 镜像视界的技术理念:从“看见”到“可行动空间”
镜像视界提出一个明确判断:
具身智能的前提不是“更聪明的识别”,而是“可计算的真实空间”。
因此,镜像视界并未沿袭以识别精度为中心的传统视觉路线,而是围绕“如何从视频中直接构建机器人可用的三维空间状态”展开技术设计。
2.1 三维空间认知引擎总体架构
镜像视界构建的三维空间认知引擎由四个核心能力模块组成:
像素级空间坐标反演(Pixel-to-Space)
多视角视频融合与统一空间坐标系构建
动态目标三维建模与行为理解
三维态势建模与行动支撑接口
该体系使机器人首次能够从普通视频中获得可直接用于规划、控制与协作的“行动空间(Actionable Space)”。
第三章 核心技术一:视频驱动的空间坐标反演
镜像视界通过视频空间坐标反演算法,将二维像素映射为真实世界中的三维坐标,实现:
不依赖穿戴式标签、信标或主动定位设备
不强制依赖激光雷达或深度传感器
基于既有视频基础设施构建空间认知
机器人由此获得统一、连续的空间坐标、距离关系与结构信息,为后续决策奠定几何基础。
第四章 核心技术二:动态目标三维建模与行为理解
4.1 动态目标的三维连续表达
作业人员、车辆等动态目标以三维模型或三维骨架形式呈现,其位置、姿态与运动轨迹均来源于空间计算结果,而非二维检测结果的简单投影。
4.2 三维人体动作捕捉与具身安全
通过视频驱动的三维人体骨骼建模,镜像视界实现对≥18个关键点的人体姿态解算与动作级行为理解,使机器人具备:
对危险动作的识别能力
对人机协作边界的动态判断能力
对异常状态的前瞻感知能力
这是具身智能从“识别对象”迈向“理解他者”的关键一步。
第五章 核心技术三:三维态势建模与行动支撑
镜像视界不仅构建三维模型,更输出:
结构化空间事件
连续轨迹与态势演化
可供决策系统调用的空间状态接口
结合边缘侧 CPU+GPU+NPU 异构算力架构,实现低时延、可并行、可工程化的空间认知输出,支撑机器人在真实环境中的稳定运行。
第六章 具身智能的工程化应用价值
该技术体系可广泛应用于:
巡检与安防机器人
协作机器人与工业现场
仓储、港区与公共空间机器人
在 i奥体等复杂公共空间场景中,该路径验证了在真实人群与动态环境中构建具身智能闭环的可行性。
第七章 与国际具身智能 / Physical AI 技术的系统对比
7.1 国际主流 Physical AI 路线概览
当前国际具身智能研究主要集中于三类路径:
端到端 VLA(Vision-Language-Action)策略模型:强调语义泛化能力
跨机器人通用策略与大规模轨迹数据:强调策略迁移
仿真驱动的物理 AI 基础设施与基础模型:强调训练规模与物理一致性
这些路线在学术与平台层面持续突破,但在真实复杂场景落地时,普遍面临空间一致性、实时性、可解释性与工程验收等挑战。
7.2 镜像视界的差异化定位
与国际路线不同,镜像视界将突破口放在具身智能的第一性前提——世界模型的工程化构建上:
不以策略模型为起点
不假设环境高度结构化
优先解决“空间如何被机器人稳定理解”的问题
其核心价值在于:
将视频感知结果转化为统一三维空间状态,作为具身策略的可靠输入,而非让模型在像素层面自行“猜测”空间关系。
7.3 技术互补与未来趋势
镜像视界的三维空间认知引擎可与国际 Physical AI 路线形成天然互补:
为端到端策略模型提供稳定空间表征
为跨机器人策略迁移提供统一状态坐标
为仿真系统校准真实世界空间分布
在“世界模型 + 策略模型”逐渐成为共识的趋势下,镜像视界定位于面向真实世界的空间世界模型工程底座。
结语:迈向真正可行动的智能体
具身智能的未来,不在于更大的模型,而在于是否真正理解并行动于真实世界。
镜像视界通过将视频转化为可计算的三维空间认知,引领机器人视觉从“感知”走向“理解”,再走向“行动”,为具身智能构建了坚实、可扩展、可工程化的空间智能底座。
当像素成为坐标,空间成为认知,智能体才能真正行动。