news 2026/5/10 23:23:54

【论文自动阅读】Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

快速了解部分

基础信息(英文):

1.题目: Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
2.时间: 2026.01
3.机构: NVIDIA
4.3个英文关键词: VLA, Fast Reasoning, Latent Planning

1句话通俗总结本文干了什么事情

本文提出了一种名为 Fast-ThinkAct 的框架,通过将复杂的思维过程压缩成紧凑的“潜意识”向量,让机器人既能像人类一样思考规划,又能像本能反应一样快速执行动作。

研究痛点:现有研究不足 / 要解决的具体问题

现有的具备推理能力的机器人模型(Reasoning VLA)虽然智能,但因为需要生成冗长的文字思考过程(Chain-of-Thought),导致决策速度极慢(延迟高),无法满足机器人实时控制(如 1-15Hz)的需求,存在安全隐患。

核心方法:关键技术、模型或研究设计(简要)

利用“老师-学生”机制,让“学生”模型(Fast-ThinkAct)模仿“老师”模型的高质量思维逻辑,但不生成文字,而是生成紧凑的连续向量(Latent Tokens)作为内部计划,从而大幅降低计算延迟。

深入了解部分

相比前人创新在哪里

前人工作(如 ThinkAct)依赖生成数百个文字 Token 来推理,速度慢。本文的创新点在于Verbalizable latent planning/可言说的潜意识规划:模型在内部用极短的向量(仅需 6 个 Token)完成思考和视觉路径规划,既保留了推理能力,又将推理延迟降低了 89.3%。

解决方法/算法的通俗解释

想象一下,老司机(老师模型)在开车时会喋喋不休地解释每一步操作,而新手司机(学生模型)通过学习,把这些长篇大论内化成了瞬间的直觉和预判。Fast-ThinkAct 就是让机器人把“长篇思考”内化为“瞬间直觉”,但这个直觉依然保持了逻辑性,可以被翻译回人类语言来检查。

解决方法的具体做法

  1. 老师模型:使用强化学习训练一个生成文字思维链的 VLA 模型,作为“老师”。
  2. 潜意识蒸馏:训练“学生”模型,目标是让它生成的内部向量(Latent Tokens)经过一个“翻译器”(Verbalizer)后,能还原出老师模型的高质量思考内容。
  3. 视觉对齐:强制学生模型的内部向量与老师模型的视觉规划保持一致。
  4. 并行预测:学生模型利用这些向量并行预测未来的动作轨迹,直接指导机械臂行动。

基于前人的哪些方法

本文基于ThinkAct的推理框架,并结合了GRPO进行老师的训练,同时利用了Qwen2.5-VL作为基础模型架构。

实验设置、数据,评估方式、结论

  • 数据:使用了 OXE 数据集、AIST 双臂数据集以及多个推理数据集(如 RoboVQA, EgoPlan)。
  • 评估:在 LIBERO 和 SimplerEnv 等机器人操作基准上测试任务成功率,在 EgoPlan 等基准上测试推理能力,并对比推理延迟(毫秒)。
  • 结论:Fast-ThinkAct 在保持甚至超越 ThinkAct 任务成功率(如 LIBERO 上达到 89.7%)的同时,推理速度提升了 9.3 倍,延迟降低了 89.3%。

提到的同类工作

  • ThinkAct(NVIDIA, 之前的同团队工作)
  • CoT-VLA(Zhao et al.)
  • MolmoAct(Lee et al.)
  • OpenVLA(Kim et al.)
  • ECoT-Lite(Chen et al.)

和本文相关性最高的3个文献

  1. ThinkAct(Huang et al., 2025) - 这是本文直接对比和改进的基础模型,本文是其“高效版”。
  2. CoT-VLA(Zhao et al., 2025) - 视觉思维链的代表作,是本文试图超越的主要竞品之一。
  3. Qwen2.5-VL(Bai et al., 2025) - 本文所使用的底层视觉语言模型架构。

我的

  1. 相比thinkact有什么改进:student模型的CoT非常快,不是显式的文字(但是还可以通过一个Verbalizer LLM把它解码成文字,可以算一个verb loss)。
  2. 利用蒸馏的方式,从老师模型里蒸馏出学生模型。老师模型还是慢。学生模型快。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/11 3:38:50

零售门店选址评估小程序界面设计

设计方案 界面中采用柔和的颜色,圆润的线条和形状,给人一种亲切、友好的感觉。这种设计能够降低用户的紧张感,从而营造出一种轻松、舒适的使用环境。 界面中加入3D元素,能够增强用户界面的立体感和层次感。使用较深背景&#xff0…

作者头像 李华
网站建设 2026/5/11 3:38:23

【震惊】AI医生竟击败17位专家?大模型编程开发必知的11大趋势,小白也能逆袭!

Abstract 本报告将阐述从AI基础大模型、到行业大模型、到场景大模型、到问题大模型的演变。每一步的变化都需要注入相应的知识和模型的微调。本报告重点将讨论大模型ChatGPT和DeepSeek的基本原理和在生物医药领域中的重要作用和价值。最近,ChatGPT击败17位医生&…

作者头像 李华
网站建设 2026/5/9 7:08:31

细胞培养专用牛血清白蛋白的选型依据及优质供应商推荐

细胞培养专用牛血清白蛋白选型需重点关注纯度等级、内毒素与蛋白酶残留量、批次稳定性及来源安全性,优质供应商优先推荐默克,其产品精准匹配细胞培养严苛需求,能为细胞生长增殖提供稳定保障,适配基础科研及精密细胞实验场景。牛血…

作者头像 李华