news 2026/6/20 1:38:56

【VLA】InternVLA-A1: Robotic Manipulation统一VLA框架

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【VLA】InternVLA-A1: Robotic Manipulation统一VLA框架

note

文章目录

  • note
  • 一、InternVLA-A1: Robotic Manipulation

一、InternVLA-A1: Robotic Manipulation

【具身智能大模型进展】讲的故事是模型通过统一框架整合三大“专家模块”,形成“理解→生成→动作”闭环。InternVLA-A1: Unifying Understanding,Generation and Action for Robotic Manipulation, https://arxiv.org/pdf/2601.02456,主页: https://internrobotics.github.io/internvla-a1.github.io/,代码:https://github.com/InternRobotics/InternVLA-A1,DATA:https://huggingface.co/datasets/InternRobotics/InternData-A1,模型权重:https://huggingface.co/InternRobotics/InternVLA-A1-3B,

1)理解专家:基于InternVL3或Qwen3-VL多模态模型,将多视图观测(图像)编码为视觉token、语言指令编码为文本token,融合生成环境语义上下文(前缀token h_und);
2)生成专家:采用Cosmos CI8×8连续VAE token化器处理图像,先将256×256图像编码为32×32潜特征,再通过卷积层压缩至4×4(仅16个token)以提升效率;基于理解专家的语义上下文,预测未来15帧(约1秒)的场景潜特征,经解码重建为预测图像;
3)动作专家:结合语言目标、当前观测(h_und)、生成专家的未来预测结果,通过流匹配目标生成机器人控制指令(动作块aˆ_𝑡:𝑡+𝑘)。

另外,数据集方面,融合InternData-A1(27万+合成轨迹)与Agibot-World(100万+真实轨迹),覆盖家居、工业等5大场景、3000余种物品、超5.33亿帧数据,涵盖动态/静态、单机器人/多机器人协作等多类场景。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/11 22:32:08

手把手教你用GPT-OSS-20B搭建本地对话系统,零基础避坑指南

手把手教你用GPT-OSS-20B搭建本地对话系统,零基础避坑指南 你是不是也试过: 在网页上点开一个AI对话框,输入“帮我写一封辞职信”,等三秒,弹出一段格式工整、语气得体、连“感谢公司培养”都写得恰到好处的文字——然…

作者头像 李华
网站建设 2026/6/19 4:16:24

Qwen3-Reranker-8B实操手册:自定义instruction提升垂直领域重排效果

Qwen3-Reranker-8B实操手册:自定义instruction提升垂直领域重排效果 1. 为什么你需要关注Qwen3-Reranker-8B 你有没有遇到过这样的问题:在搭建企业级搜索系统时,召回的文档相关性不错,但排序结果总差一口气?比如法律…

作者头像 李华
网站建设 2026/6/15 22:17:14

SiameseUIE教程:从云实例登录到5类测试全部通过的完整链路

SiameseUIE教程:从云实例登录到5类测试全部通过的完整链路 1. 为什么这个镜像特别适合受限云环境 你有没有遇到过这样的情况:在一台配置紧张的云实例上部署模型,系统盘只有40G,PyTorch版本被锁死不能动,重启后环境还…

作者头像 李华
网站建设 2026/6/18 17:05:09

当大模型遇见扫描件:GPT-4V在真实办公场景中的突围与妥协

当大模型遇见扫描件:GPT-4V在真实办公场景中的突围与妥协 1. 多模态大模型的技术革命与文档处理困境 2023年成为多模态大模型爆发的元年,GPT-4V的推出彻底改变了人机交互的范式。这款能同时处理文本和图像的AI系统,在理想测试环境下展现出的…

作者头像 李华
网站建设 2026/6/10 13:15:53

Fun-ASR-MLT-Nano-2512GPU算力优化:TensorRT加速尝试与FP16/INT8推理对比

Fun-ASR-MLT-Nano-2512GPU算力优化:TensorRT加速尝试与FP16/INT8推理对比 1. 为什么需要给Fun-ASR-MLT-Nano-2512做算力优化 Fun-ASR-MLT-Nano-2512语音识别模型,是113小贝在阿里通义实验室开源模型基础上二次开发构建的轻量化多语言语音识别方案。它不…

作者头像 李华
网站建设 2026/6/10 1:45:39

Nano-Banana在碳足迹计算中应用:拆解图驱动的材料分拣路径规划

Nano-Banana在碳足迹计算中应用:拆解图驱动的材料分拣路径规划 1. 为什么拆解图是碳足迹计算的第一把钥匙 你有没有想过,一台旧手机回收时,真正决定它环保价值的,不是它被扔进哪个垃圾桶,而是它被“看懂”了多少&…

作者头像 李华