【论文自动阅读】LatBot: Distilling Universal Latent Actions for Vision-Language-Action Models-平芜编程栈

LatBot相关研究信息梳理

快速了解部分

基础信息（英文）：

题目：LatBot: Distilling Universal Latent Actions for Vision-Language-Action Models
时间年月：2025年11月
机构名：Institute of Microelectronics, Chinese Academy of Sciences；University of Chinese Academy of Sciences；Microsoft Research
3个英文关键词：Vision-Language-Action Models；Latent Action Learning；Knowledge Distillation
1句话通俗总结本文内容：This paper proposes LatBot, a universal latent action learning framework that extracts transferable latent actions from large-scale object manipulation videos by integrating task instructions and multi-frame inputs, optimizing both future frame reconstruction and action sequence prediction, and distills these latent actions into Vision-Language-Action models to enhance their generalization and few-shot transferability in downstream robotic manipulation tasks.

研究痛点：现有研究不足 / 要解决的具体问题

现有潜在动作模型（LAM）缺乏任务指令引导，无法捕捉与任务相关的变化，例如Genie模型。
对多帧的利用不足，导致潜在动作表示不够精确，难以准确捕捉运动动态，如UniVLA模型。
潜在动作往往聚焦于视觉外观变化，缺乏物理感知，使得潜在动作表示与实际可执行动作之间存在语义鸿沟，阻碍了所学潜在动作向下游任务的有效迁移，无法为规划提供可靠线索，限制了从视觉感知到真实世界机器人执行的泛化能力。
现有方法通常将机器人引发的运动和环境引发的变化等所有视觉变化都纠缠在单一的潜在动作表示中，引入了与任务无关的信号（如背景运动或光照波动），削弱了潜在动作与真实机器人动态之间的对应关系，最终导致操作任务中动作预测不准确。
现有VLA模型严重依赖带有地面真实动作标签的交互式数据集，极大地限制了其可扩展性和泛化性。

核心方法：关键技术、模型或研究设计（简要）

解耦的潜在动作表示：将潜在动作分解为运动表示（Z_mot）和场景表示（Z_sce），分别捕捉机器人主动运动引发的变化和环境动态引发的被动场景变化，并引入可学习的[CP SCE]和[CP MOT]令牌，借助预训练视觉语言模型（VLM）编码上下文信息。
统一潜在动作解码器：以潜在动作为条件，联合引导未来帧重建和帧间动作生成，通过层间双向交互逐步融合场景和运动信息，利用预训练图像生成模型SANA初始化解码器，实现场景动态引导动作生成、运动令牌优化视觉重建的相互强化。
知识蒸馏策略：设计潜在动作对齐损失（L_a）和推理保留损失（L_r），将预训练潜在动作模型（LAM）的物理先验知识迁移到VLA模型中，同时保留VLA模型原有的视觉-语言推理能力；之后结合动作专家模块进行微调，将潜在表示转化为可执行的机器人动作，并分解动作损失为末端执行器损失（L_ee）和夹爪状态损失（L_gripper）。

深入了解部分

相比前人创新在哪里

解耦潜在动作组件：首次明确将潜在动作分解为运动令牌和场景令牌，分别对应机器人主动运动和环境被动变化，过滤无关动态，建立更清晰的机器人运动、环境变化与潜在动作表示的对应关系，提升运动理解和动作预测效果，而前人方法多将视觉变化纠缠在单一潜在动作表示中。
融合任务指令与多帧输入：在潜在动作学习中同时融入任务指令引导和多帧观测信息，解决了前人模型缺乏任务相关性引导或多帧利用不足的问题，使潜在动作更精准捕捉任务相关运动动态。
双目标联合优化：同时优化未来帧重建和动作序列预测目标，让模型同时获取视觉动态和物理先验，弥合潜在动作与真实机器人动作的语义鸿沟，前人方法多仅依赖视觉重建目标，缺乏物理感知。
双向交互融合机制：在统一解码器中通过层间双向交互融合场景和运动信息，实现场景动态引导动作生成、运动令牌优化视觉重建的相互强化，提升潜在动作与真实机器人动态的对齐度，此双向融合机制为前人所无。
兼顾知识迁移与推理保留的蒸馏策略：设计两种损失函数，在将LAM的物理先验迁移到VLA模型的同时，保留VLA模型的语言理解和推理能力，解决了直接对齐可能损害VLA固有能力的问题，前人蒸馏方法未充分考虑此平衡。

解决方法/算法的通俗解释，以及整体流程

通俗解释

解耦潜在动作表示：就像给机器人装上“双摄像头”，一个专门盯着机器人自己的动作（如机械臂移动、夹爪开合），生成运动令牌；另一个盯着周围环境的变化（如物体位置移动、背景变动），生成场景令牌，这样就能把机器人动作和环境变化分开，避免相互干扰。同时，让模型“听懂”任务指令，根据指令从多帧画面中提取有用信息，分别填充到运动令牌和场景令牌里。
统一潜在动作解码器：把前面得到的运动令牌和场景令牌交给一个“全能处理器”（统一解码器）。这个处理器会让两者不断交流信息，比如环境中物体位置变了，就指导机器人调整动作；机器人动作有新变化，就反过来优化对未来画面的预测。最终，这个处理器能输出未来的画面样子，还能给出机器人该做的一系列动作。
知识蒸馏与动作微调：先让训练好的“动作专家”（LAM）把它掌握的物理知识（如真实世界距离、角度）教给“视觉-语言新手”（VLA模型），教的时候既要保证新手学会物理知识，又不能让它忘了原来的“看图说话”能力。之后，再给新手配备一个“动作转换器”（动作专家模块），把学到的抽象动作知识转化为机器人能实际执行的动作，比如控制机械臂移动到指定位置、夹爪松紧程度等，并根据执行效果不断调整优化。

整体流程

数据准备：收集大规模机器人和人类手部操作视频数据集（如OXE、AgiBoT、EgoDex），统一机器人和人类动作表示（构建44维统一动作空间）与状态表示（构建46维统一状态空间）。
LAM预训练：初始化LAM的编码器（采用预训练VLM，如InternVL3.5-2B）和解码器（采用预训练图像生成模型SANA）；输入任务指令和多帧画面，通过解耦潜在动作表示提取运动令牌和场景令牌；利用统一解码器联合优化未来帧重建和动作序列预测，训练14天（16块RTX A100 GPU，批大小512）。
知识蒸馏：以预训练LAM为“老师”，VLA模型的VLM为“学生”；输入相同的任务指令和多帧画面，计算学生生成的潜在动作表示与老师的差异（潜在动作对齐损失），同时让学生根据当前画面和指令预测子任务描述（推理保留损失），联合优化这两个损失，训练7天（16块RTX A100 GPU，批大小256），将LAM的物理先验迁移到VLA模型。
动作专家微调：在模拟和真实机器人环境中，给蒸馏后的VLA模型添加动作专家模块；将VLA模型输出的潜在表示转化为可执行动作，通过末端执行器损失（MSE）和夹爪状态损失（二元交叉熵）优化动作生成精度，完成最终模型训练。
下游任务部署：将训练好的模型应用于模拟（SIMPLER、LIBERO）和真实世界（Franka机器人）机器人操作任务，实现少样本迁移（如每个任务仅10条真实轨迹）。

基于前人的哪些方法

Vision-Language-Action（VLA）模型相关方法：借鉴RT-1、Octo、RT-2、OpenVLA等模型基于Transformer架构、利用大规模机器人轨迹训练或微调预训练VLM的思路，同时改进其依赖带标签动作数据集的局限；参考RoboFlamingo添加动作预测头、π₀结合VLM与流匹配专家进行连续控制的方法，进一步整合潜在动作知识。
潜在动作模型（LAM）相关方法：吸收Genie、LAPO在无监督潜在动作建模的探索，以及DynaMo利用逆动力学和前向动力学学习结构化状态表示的思想；参考LAPA、ViLLA-X将潜在动作学习扩展到人类和机器人视频以实现跨域迁移的思路，优化潜在动作的泛化性；借鉴Moto-GPT将视频转化为离散运动令牌并与真实机器人动作联合微调的方法，强化潜在动作与实际动作的关联。
知识蒸馏相关方法：采用常见的师生蒸馏框架，借鉴通过损失函数对齐师生模型表示的思路，同时创新设计双损失函数平衡知识迁移与推理保留，区别于传统单一损失的蒸馏方法。
预训练模型应用方法：延续利用预训练VLM（如PaliGemma、InternVL3.5）强大上下文理解能力、预训练图像生成模型（如SANA）生成能力的做法，初始化模型组件以提升训练效率和性能，这是基于前人在多模态模型中利用预训练权重的成熟经验。

实验设置、数据、评估方式

实验设置

硬件环境：LAM预训练和知识蒸馏阶段均使用16块NVIDIA A100（40GB）GPU；采用全分片数据并行（FSDP）策略，LAM预训练阶段每GPU批大小16、梯度累积步数2（有效全局批大小512），知识蒸馏阶段每GPU批大小8、梯度累积步数2（有效全局批大小256）。
模型参数：LAM编码器初始化自预训练VLM（默认InternVL3.5-2B），解码器初始化自SANA-1.6B；LAM处理16帧序列，用64个场景表示和64个动作表示刻画潜在动作；知识蒸馏阶段默认以π₀.5作为VLA骨干模型。
训练参数：优化器采用AdamW（β₁=0.9，β₂=0.95）；学习率初始为1.0×10⁻⁴，经2000步热身阶段后，按余弦衰减策略降至2.5×10⁻⁶；LAM预训练持续14天，知识蒸馏持续7天；动作专家微调阶段采用分位数归一化处理动作和状态。

实验数据

预训练数据：融合机器人操作数据（OXE、AgiBoT、DROID等，包含Fractal、Kuka、Bridge等子数据集，各子数据集占比不同，如Fractal和Kuka各占12.8%）和人类手部操作数据（EgoDex，占比11.1%），共100万视频片段；EgoDex提供双手3D位置、6D姿态、指尖3D位置等精细标注，统一为44维动作空间和46维状态空间。
评估数据：
- SIMPLER基准：涵盖Google机器人（Visual Matching、Variant Aggregation两种设置，各4个任务）和WidowX机器人（4个任务，如“将勺子放在毛巾上”“将胡萝卜放在盘子里”）的模拟与真实场景数据。
- LIBERO基准：包含4个任务套件（LIBERO-Goal、LIBERO-Object、LIBERO-Spatial、LIBERO-Long），每个套件10个任务，每个任务50条人类遥操作演示数据。
- 真实机器人数据：Franka机器人5个任务（如“拿起杯子”“关闭烤箱”），每个任务100条人类专家遥操作演示数据，评估少样本迁移时使用10、50和全部演示数据子集。

评估方式

评估指标：以任务成功 rate 作为核心指标，衡量模型在各任务中的完成效果；计算平均成功 rate，综合评估模型在多个任务或任务套件上的整体性能。
评估流程：
- SIMPLER和LIBERO基准：在模拟环境中，每个任务或任务套件运行指定次数的测试（如LIBERO每个任务套件500次滚动测试，每个任务50次），统计成功完成任务的比例。
- 真实机器人评估：在Franka机器人上，针对每个任务，分别使用10、50和全部演示数据训练模型，每个训练设置下评估10次，计算成功 rate；对比不同模型在相同数据量下的性能差异，验证少样本迁移能力。
消融实验：针对解耦潜在动作表示（DLA）和统一动作解码器（UAD）两个核心组件，设计4种模型变体（UniVLA风格基线、仅DLA、仅UAD、DLA+UAD），在SIMPLER基准上评估各变体性能，验证核心组件的有效性。

提到的同类工作

Vision-Language-Action（VLA）模型：
- RT-1：基于Transformer的策略模型，在大规模机器人轨迹数据集上训练，涵盖多种任务、物体和环境。
- Octo：开源通用机器人策略模型，同样依赖大规模机器人轨迹数据训练。
- RT-2：通过微调预训练VLM，将动作离散化为类文本令牌，融合视觉-语言数据和机器人演示数据。
- OpenVLA：在Open X-Embodiment数据集上适配Prismatic VLM，用于机器人动作生成。
- RoboFlamingo：在VLM基础上添加策略头，实现动作预测。
- π₀：结合PaliGemma进行场景理解和流匹配专家实现连续控制的VLA模型。
- π₀.5：具有开放世界泛化能力的VLA模型，本文将其作为知识蒸馏阶段的默认骨干模型。
- SpatialVLA：探索空间表示在VLA模型中的应用，提升动作生成的空间准确性。
- MemoryVLA：在VLA模型中引入感知-认知记忆，增强机器人操作任务的性能。
- DD-VLA：将离散扩散模型引入VLA模型的动作解码过程。
- CogACT：融合认知与动作的基础VLA模型，用于机器人操作。
潜在动作模型（LAM）：
- Genie：无监督潜在动作建模方法，最初用于视频游戏环境，缺乏任务指令引导。
- LAPO：在视频游戏环境中进行无监督潜在动作学习的早期工作。
- DynaMo：利用逆动力学和前向动力学学习结构化状态表示，扩展潜在动作学习思路。
- LAPA：将潜在动作学习扩展到人类和机器人视频，实现跨域迁移。
- ViLLA-X：增强VLA模型中的潜在动作建模，提升跨域迁移能力。
- Moto-GPT：将视频转化为离散运动令牌，与真实机器人动作联合微调，连接运动理解与控制。
- UniVLA：采用两阶段流水线学习任务中心的潜在动作，本文将其作为消融实验的基线之一。
其他相关模型：
- Diffusion Policy：通过动作扩散实现视觉-运动策略学习的模型，用于机器人操作。
- TraceVLA：利用视觉轨迹提示增强VLA模型的时空感知能力，提升通用机器人策略性能。
- RDT：用于双臂操作的扩散基础模型，专注于复杂的双机器人协同操作任务。

和本文相关性最高的3个文献

文献标题：UniVLA: Learning to act anywhere with task-centric latent actions（作者：Qingwen Bu等，2025）
- 相关性理由：该文献同样聚焦于VLA模型中的潜在动作学习，提出两阶段流水线学习任务中心的潜在动作，是本文直接对比的潜在动作模型基线之一。本文指出其存在多帧利用不足、潜在动作未解耦的问题，并在此基础上提出解耦潜在动作表示和统一解码器，两者均围绕“潜在动作在VLA模型中的应用”展开，研究方向高度一致，且本文在消融实验和性能对比中多次以其为基准验证自身方法的优越性。
文献标题：π₀.5: a Vision-Language-Action Model with Open-World Generalization（作者：Physical Intelligence等，2025）
- 相关性理由：该文献提出的π₀.5是具有开放世界泛化能力的先进VLA模型，本文在知识蒸馏阶段将其作为默认的VLA骨干模型（学生模型），并在多个实验基准（如SIMPLER、LIBERO、真实Franka机器人任务）中与π₀.5进行性能对比，验证知识蒸馏后模型的提升效果。两者均致力于提升VLA模型的泛化性和实际操作能力，研究对象和目标高度重合，且本文方法是在其基础上的改进与扩展。
文献标题：Latent Action Pretraining from Videos（作者：Seonghyeon Ye等，2024）
- 相关性理由：该文献专注于从视频中进行潜在动作预训练，探索潜在动作表示的学习方法，与本文的核心研究方向“潜在动作学习”直接相关。本文借鉴其从大规模视频中挖掘潜在动作信息的思路，同时指出其未充分融合任务指令、未解耦动作与环境变化、缺乏物理先验引导的不足，本文的解耦潜在动作表示和双目标优化设计可视为对该文献方法的改进与完善，两者在潜在动作预训练的技术路线上具有承继关系，相关性极高。