news 2026/4/17 18:38:14

Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment

序号

属性
1论文名称Evo-1
2发表时间/位置2025
3CodeMINT-SJTU/Evo-1: Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment
4创新点

1:原生多模态与层级剪枝

摒弃了传统 VLA “文本 LLM + 视觉适配器”的拼凑模式,采用原生多模态预训练的InternVL3-1B。这保证了视觉与语言在底层特征空间的紧密纠缠(Tight Entanglement),而非事后对齐。仅保留语言模型(Qwen2.5-0.5B)的前 14 层。放弃深层复杂的文本生成逻辑,专注于中间层(Intermediate Layers)。这部分特征在“视觉-语言语义对齐”与“空间感知”之间取得了最佳平衡,既减少了计算量,又剔除了对控制无用的高层语义噪音。

2:High-Fidelity Integration(融合方面)

空间粒度保留:视觉编码器采用InternViT-300M 配合Pixel-unshuffle。这种设计在压缩 Token 数量(4x 下采样)的同时,最大限度保留了对机械臂抓取至关重要的空间粒度。 在融合多模态特征 (zt) 与机器人状态 (st) 时,拒绝使用 MLP 投影,而是直接拼接。防止低维敏感的本体感知信息在投影过程中发生形变或丢失,保留数据的原始流形结构供 Transformer 直接查询。

3:流匹配与纯交叉注意力

替代传统的 DDPM 扩散,采用基于线性插值和速度场学习(Velocity Field)的流匹配。构建了从噪声到动作的“直线最优路径”,显著提升了推理速度和数值稳定性(配合 Beta 分布截断)。砍掉了动作生成网络中的Self-Attention,引入强归纳偏置,强迫每一个动作 Token 直接由感知条件(zt,st)驱动,而非依赖动作序列内部的历史惯性。这不仅降低了计算复杂度,更提升了动作对环境变化的响应灵敏度。

4:梯度隔离的两阶段微调

阶段一(Action Expert Alignment)冻结 Backbone,只训动作专家。防止初始化阶段的高方差梯度噪声破坏预训练好的多模态语义空间。阶段二(Full-scale Fine-Tuning)解冻全模型,进行微调。实现感知与控制的联合优化。

5引用量Evo-1 通过流匹配纯交叉注意力架构极大地精简了控制端,通过中间层特征提取两阶段训练完美保留了感知端的语义理解,从而在0.77B的极小参数规模下,实现了当前 VLA 领域的 SOTA 性能与最高算力性价比。

一:提出问题

目前的 VLA 模型(如 Google 的 RT-2 或 OpenVLA)虽然强大,但存在模型体量太大,难以在机器人本体上跑起来,而语义灾难性遗忘。Evo-1 (0.77B)的核心目标是在变小的同时,保住智商。Evo-1 能做到 0.77B,意味着它可以在边缘设备(Edge Devices)上流畅运行,而且不需要像谷歌那样先喂海量的机器人数据,降低了数据门槛。

Evo-1 采用了交叉调制扩散 Transformer,引入了“扩散模型(Diffusion)”策略来生成动作。它不是直接输出一个死板的坐标,而是像生成图片一样,根据视觉和语言的提示(Cross-modulated),逐步“去噪”生成一条平滑、精准的动作轨迹。这使得机器人的动作更加细腻、拟人,抗干扰能力更强。

Evo-1 采用了两阶段训练范式。感知与动作的初步对齐。再进行端到端的精细微调。

二:解决方案

目前的 VLA 趋势分为两派。一派是像 RT-2 那样,直接把图片和文本 tokenize 后丢进一个巨大的 LLM 里直接预测 token 化的动作。这种方法“智商”高,但推理极慢,且难以部署在机器人本体上。Evo-1选择了模块化。这意味着它没有把所有东西都塞进一个巨大的 Transformer 里,而是拆分了“大脑”(视觉-语言骨干)和“小脑/手”(扩散策略)。这种设计是为了实现标题中的Lightweight(轻量级),保证推理速度够快,能在边缘设备上运行。

1.Vision-Language Backbone

传统的 VLA(如 RT-2)通常是拿一个纯文本 LLM(比如 LLaMA),强行加一个 Vision Encoder,然后通过一个 Projector(投影层)连接。这种叫“Post-hoc alignment”(事后对齐),就像给盲人强行装个义眼,大脑和义眼的配合未必默契。Evo-1选择了InternVL3-1B。关键词是"Native Multimodal"(原生多模态)。这意味着这个模型从出生开始(预训练阶段)就是同时看图和读文字的。这种“原生家庭”好的模型,其视觉特征和语言特征在同一个向量空间里纠缠得更紧密,对于机器人理解“拿起那个红色把手”这种跨模态指令至关重要。

视觉部分往往会引入大量的计算量,Evo-1 在这里做了两步操作:模型蒸馏(Distillation):它用的 InternViT-300M 不是随便训练的小模型,而是从一个巨大的 InternViT-6B蒸馏出来的。这就像是把大学教授(6B)的知识浓缩进了一个神童(300M)的脑子里。虽然参数小了20倍,但通过“负余弦相似度损失”,强迫小模型的特征向量方向跟大模型保持一致,保留了强大的感知能力。Token 压缩(Pixel-unshuffle):输入分辨率是 448×448(对机器人来说很高清了,能看清细节)。通常这会产生大量的 Tokens,导致推理变慢。它用Pixel-unshuffle把特征图的长宽减半,通道数乘4。这样 Token 数量直接减少了 4 倍。既保留了高分辨率带来的“空间粒度”(Spatial Granularity,对抓取很重要),又没有拖累推理速度。

而语言部分只保留前14层,用的语言模型是 Qwen2.5-0.5B,但它还把后面砍掉了,只留前 14 层。在大语言模型中,浅层/中层通常负责理解语法、词义以及与视觉特征的对齐(Semantic Alignment)。深层/末层通常负责复杂的逻辑推演、长文本生成和下一个词的预测概率调整。对于机器人来说不需要模型写诗或写代码(不需要深层的生成能力),需要它完美地理解“杯子在哪里”以及“怎么拿”(需要中层的对齐能力)。砍掉后半部分,不仅进一步减少了计算量(更轻量),反而因为去掉了不必要的生成层噪音,提取出的 zt特征对控制任务更纯粹、更有效。

2.交叉调制扩散 Transformer

从 DDPM 到 Flow Matching (流匹配):传统的扩散策略(Diffusion Policy)通常基于 DDPM,通过预测噪声 ϵ 来逐步去噪。然而,Evo-1 选择了Flow Matching范式。

该公式定义了一个线性插值过程。在几何上,这意味着模型构建了一条连接高斯噪声分布与真实动作分布的“直线路径”。相比于传统扩散过程的随机游走路径,这种线性轨迹对应于最优传输理论中的最短路径。

模型学习的是速度场(Velocity Field,vθvθ,而非简单的噪声项。这意味着网络直接预测从噪声状态到目标状态的变化率

这种设计显著降低了采样步骤(Inference Steps),提高了推理效率,同时 Beta 分布截断(Clamped τ)解决了流匹配在边界处(τ=0/1)梯度不稳定的数值问题。

Evo-1 的流匹配:它直接画了一条直线。公式里的线性插值(Linear Interpolation)意思就是,我在噪声和真实动作之间连一根线,训练模型沿着这条最短路径走。推理速度极快,动作轨迹更平滑,不会出现机械臂抖动的情况。

纯交叉注意力机制 (Solely Cross-Attention):标准的 DiT 或 VLA 模型通常采用 Self-Attention 和 Cross-Attention 交替的结构。Self-Attention 用于建模动作序列内部的时间依赖,Cross-Attention 用于引入条件(视觉/语言)。Evo-1去除了 Self-Attention,仅保留堆叠的 Cross-Attention 层。这是一个强烈的归纳偏置(Inductive Bias)*设计。作者认为,在动作生成的去噪过程中,动作 Token 之间的相互注意力(即动作自身的一致性)不如*动作对环境感知(zt)和本体状态(st)的响应重要。

3.集成模块

在 Transformer 架构中,浅层特征偏向底层的纹理和几何信息,深层特征偏向高层的抽象语义和逻辑推理。对于 Visuomotor(视觉运动)控制任务,模型不仅需要理解“拿什么”(语义),还需要知道“在哪”(空间几何)。第 14 层被认为是语义对齐(Semantic Alignment)与空间感知的最佳平衡点。过深的网络层往往会发生“语义坍缩”,丢失对控制至关重要的空间细粒度信息。

拼接优于 投影

  • 投影 (Projection):通常指通过 MLP 将不同维度的特征映射到同一潜在空间(Latent Space)再相加。这会导致信息压缩和高频信号丢失。

  • 拼接 (Concatenation):Evo-1 选择将 zt(多模态特征)与 st(机器人状态)直接在序列维度或通道维度进行拼接,作为 Transformer 的 Key/Value 输入。

本体感知信息(如关节角度、速度)通常是低维但在数值上非常敏感的物理量。通过拼接,模型保留了本体感知的原始流形结构(Raw Manifold Structure),避免了投影带来的量化误差。这使得 Cross-Attention 机制能够直接“索引”到精确的物理状态,从而生成更精准的控制信号。

4.Two-Stage Training Procedure

直接端到端训练会破坏预训练表征。阶段1 的核心是梯度隔离与冷启动,阶段2的核心是联合流形优化

梯度隔离与冷启动:动作专家是随机初始化的。在训练初期,其输出与真实标签相差巨大,产生的梯度具有极大的方差。如果允许这些高方差的“噪声梯度”反向传播到 VLM,会迅速破坏 VLM 预训练好的高维特征流形。第一阶段本质上是一个Linear Probing(线性探测)Head-Tuning的过程。它假设 VLM 的特征已经足够好,只需要训练一个映射函数(动作专家),将现有的语义特征空间映射到动作空间。

联合流形优化:在阶段 1 结束后,动作专家的参数已经进入了一个合理的局部最小值附近,梯度趋于平稳。此时解冻 VLM,进行的是微调(Fine-tuning)而非从头学习。这允许 VLM 的特征空间发生微小的平移或旋转,以更好地服务于控制任务,同时因为学习率通常较低且梯度稳定,不会破坏原有的语义结构。

Evo-1 的两阶段训练并非简单的工程技巧,而是针对多模态表征学习中核心问题的系统性解决方案。它通过梯度隔离保护了语义空间,通过分步优化实现了从通用感知到具体行动的平滑过渡,这是该模型能够在轻量级参数下依然保持高性能(语义对齐)的关键算法保障。

三:实验

四:总结

Evo-1 这篇论文在 VLA 领域具有重要的意义。它证明了不盲目堆砌参数、不依赖海量机器人数据,而是通过精细的架构工程(Architectural Engineering)*和*符合梯度动力学的训练策略,完全可以在小参数模型上实现超越大模型的性能。这为未来具身智能走向端侧部署(On-device AI)指明了一条可行的技术路径。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 7:51:52

IDM插件开发创意赛技术文章大纲

IDM插件开发创意赛技术文章大纲赛事背景与意义介绍IDM(Internet Download Manager)插件的应用场景,阐述插件开发创意赛的目标和意义,鼓励开发者参与创新。开发环境与工具准备列出开发IDM插件所需的开发工具和环境配置,…

作者头像 李华
网站建设 2026/4/17 18:03:02

清理临时文件和缓存

清理临时文件和缓存打开“运行”窗口(WinR),输入%temp%删除临时文件夹内容 使用磁盘清理工具勾选“临时文件”“缩略图”“下载的程序文件”等选项 浏览器缓存手动清理:Chrome/Firefox设置中清除浏览数据卸载无用程序和功能控制面…

作者头像 李华
网站建设 2026/4/17 4:45:39

学术写作迈入AI时代,实测9款工具显著提升开题报告与论文效率

在毕业论文撰写阶段,高效完成开题报告和正文是学生普遍面临的挑战,传统人工写作方式灵活性高但效率较低,而AI工具能快速生成内容并优化文本重复率与机器痕迹。通过对9款平台的横向评测,可筛选出最适合学术场景的智能辅助工具&…

作者头像 李华
网站建设 2026/4/17 21:00:38

CSDN官网热议:VoxCPM-1.5-TTS-WEB-UI是否将颠覆传统语音合成方式?

VoxCPM-1.5-TTS-WEB-UI:当语音合成走向“开箱即用” 在AI技术飞速渗透内容创作的今天,一个令人兴奋的变化正在发生——曾经需要博士级知识储备才能驾驭的文本转语音(TTS)系统,如今只需点几下鼠标就能运行。这不是科幻&…

作者头像 李华
网站建设 2026/4/17 9:31:34

BKA-Transformer-LSTM多变量时间序列预测Matlab实现

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。 🍎 往期回顾关注个人主页:Matlab科研工作室 👇 关注我领取海量matlab电子书和数学建模资料 &#x1…

作者头像 李华
网站建设 2026/4/16 10:36:44

把IP地址转换为字符串

程序如下​ #include <stdio.h>char str[15]{\0};struct in_addr {unsigned long int s_addr;};char *inet_ntoa(struct in_addr in);int main(){struct in_addr addr0;char *s;addr0.s_addr0x8002c2f2;sinet_ntoa(addr0);printf("%s",s);return 0;}char *inet…

作者头像 李华