news 2026/5/6 22:24:46

【论文阅读】SILENTDRIFT利用action chunking对VLA进行隐蔽后门攻击

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文阅读】SILENTDRIFT利用action chunking对VLA进行隐蔽后门攻击

快速了解部分

基础信息(英文):

1.题目: SILENTDRIFT: Exploiting Action Chunking for Stealthy Backdoor Attacks on Vision-Language-Action Models
2.时间: 2026 (推断基于arXiv引用的2025年文献及当前时间)
3.机构: University of Southern California, University of Central Florida, Illinois Institute of Technology
4.3个英文关键词: Vision-Language-Action (VLA) models, Backdoor Attacks, Action Chunking

1句话通俗总结本文干了什么事情

本文提出了一种名为SILENTDRIFT的隐蔽后门攻击方法,利用视觉-语言-动作(VLA)模型在动作分块和相对位姿表示上的设计缺陷,通过平滑的微小扰动积累导致机器人执行失败,且难以被检测。

研究痛点:现有研究不足 / 要解决的具体问题

现有的VLA后门攻击通常导致机器人行为突兀(如突然松手或错误转向),容易被基于动力学的异常检测器或人工质检发现,缺乏实际威胁性。

核心方法:关键技术、模型或研究设计(简要)

利用“动作分块”机制导致的视觉开环漏洞,使用Smootherstep函数生成在速度和加速度上平滑的扰动,并仅在关键接近阶段注入,使恶意轨迹在视觉和物理上均难以察觉。

深入了解部分

作者想要表达什么

作者旨在揭示现代VLA系统架构中一个被忽视的根本性安全漏洞:动作分块(Action Chunking)与相对位姿(Delta Pose)结合会产生块内视觉开环,这种设计虽然提升了推理效率,但也为隐蔽的、符合运动学约束的后门攻击提供了可乘之机。

相比前人创新在哪里

  1. 攻击模式创新:首次利用动作分块的时间结构漏洞,而非仅修改输出动作。
  2. 隐蔽性增强:引入Smootherstep函数确保扰动具有C²连续性(零速度和加速度边界),通过动力学检测;采用关键帧攻击策略,仅在不可逆的接近阶段激活,减少视觉痕迹。
  3. 攻击有效性:证明了微小的、平滑的扰动在开环执行中会随时间积分累积,最终导致任务失败。

解决方法/算法的通俗解释

想象你在蒙眼走50步才能看一次路(动作分块)。攻击者在你起步时轻轻推你一下,但这推力不是猛推,而是像弹簧一样慢慢发力再慢慢停下(Smootherstep)。你感觉不到异常,但因为你看不到路,这小小的偏差会随着50步越积越大,最后让你完全走偏。攻击者还很聪明,只在你拿东西的关键时刻推你,平时不碰你,所以很难被发现。

解决方法的具体做法

  1. 利用开环漏洞:利用VLA模型在执行K步动作序列时不更新视觉反馈的特性,让误差无修正地累积。
  2. 构造平滑扰动:使用五次多项式(Smootherstep)生成扰动,确保在轨迹开始和结束时速度、加速度为零,模拟自然运动。
  3. 关键帧注入:仅当机器人末端执行器接近目标(<0.15m)时激活后门,最大化攻击影响并最小化中毒数据比例(仅2%)。

基于前人的哪些方法

  1. 动作分块(Action Chunking):基于Zhao et al. (2023)的研究,即预测K步动作序列而非单步。
  2. 相对位姿表示(Delta Pose):基于Zech et al. (2019)的研究,即通过积分相对变化控制机器人。
  3. Smootherstep函数:源自Perlin (2002)的计算机图形学方法,用于平滑插值。

实验设置、数据、评估方式、结论

  • 模型:VLA-Adapter (0.5B参数) 和 π₀ (Flow Matching模型)。
  • 数据:LIBERO benchmark(包含Spatial, Object, Goal, Long四个任务套件)。
  • 评估指标
    • 干净任务成功率 (CTSR):衡量正常任务表现。
    • 攻击成功率 (ASR):衡量触发后任务失败率。
  • 结论:在仅2%的投毒率下,实现了93.2%的攻击成功率,同时保持了95.3%的干净任务成功率。定性分析显示中毒轨迹在视觉上与正常轨迹无法区分。

提到的同类工作

  • BadVLA(Zhou et al., 2025a): 使用目标解耦优化,但需白盒访问。
  • GoBA(Zhou et al., 2025b): 诱导机器人转向错误目标或位置。
  • TabVLA(Xu et al., 2025): 触发突然的夹爪释放。
  • BadCLIP / TrojVLM: 视觉语言模型的后门攻击,未考虑动作的时间结构和运动学约束。

和本文相关性最高的3个文献

  1. Action Chunking: Zhao et al., “Learning fine-grained bimanual manipulation with low-cost hardware” (RSS 2023). (核心漏洞来源)
  2. Delta Pose: Zech et al., “Action representations in robotics: A taxonomy and systematic classification” (IJRR 2019). (核心漏洞来源)
  3. Smootherstep: Perlin, “Improving noise” (ACM SIGGRAPH 2002). (核心攻击算法基础)

我的

目前来看用处不大。VLA目前是提升成功率。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/6 22:23:57

CUDA Kernel:解锁GPU超能力的魔法钥匙

&#x1f680; CUDA Kernel&#xff1a;解锁GPU超能力的魔法钥匙 本文是写给编程爱好者的CUDA入门指南&#xff0c;用最通俗的方式解释专业概念&#xff0c;包含完整可运行的代码示例。 一、引言&#xff1a;为什么需要CUDA Kernel&#xff1f; 想象一下这个场景&#xff1a;你…

作者头像 李华
网站建设 2026/5/6 22:24:05

(新卷,100分)- 火星文计算(Java JS Python)

(新卷,100分)- 火星文计算&#xff08;Java & JS & Python&#xff09; 题目描述 已知火星人使用的运算符为#、$&#xff0c;其与地球人的等价公式如下&#xff1a; x#y 2*x3*y4 x$y 3*xy2 其中x、y是无符号整数地球人公式按C语言规则计算火星人公式中&#xff…

作者头像 李华
网站建设 2026/5/3 7:46:18

(新卷,100分)- 机器人搬砖(Java JS Python C)

(新卷,100分)- 机器人搬砖&#xff08;Java & JS & Python & C&#xff09;题目描述机器人搬砖&#xff0c;一共有 N 堆砖存放在 N 个不同的仓库中&#xff0c;第 i 堆砖中有 bricks[i] 块砖头&#xff0c;要求在 8 小时内搬完。机器人每小时能搬砖的数量取决于有多…

作者头像 李华
网站建设 2026/5/6 12:15:59

使用Scikit-learn进行机器学习模型评估

SQLAlchemy是Python中最流行的ORM&#xff08;对象关系映射&#xff09;框架之一&#xff0c;它提供了高效且灵活的数据库操作方式。本文将介绍如何使用SQLAlchemy ORM进行数据库操作。目录安装SQLAlchemy核心概念连接数据库定义数据模型创建数据库表基本CRUD操作查询数据关系操…

作者头像 李华
网站建设 2026/5/6 12:15:48

开题报告基于PHP的校园OA系统

目录 项目背景系统功能模块技术选型创新点预期成果 项目技术支持可定制开发之功能亮点源码获取详细视频演示 &#xff1a;文章底部获取博主联系方式&#xff01;同行可合作 项目背景 校园OA系统旨在解决传统校园办公中信息传递效率低、流程繁琐的问题。通过PHP开发&#xff0c…

作者头像 李华