news 2026/5/14 17:42:53

ETH Zurich提出轻量级点云模型LitePT:参数少3.6倍,速度快2倍,性能超越SOTA!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ETH Zurich提出轻量级点云模型LitePT:参数少3.6倍,速度快2倍,性能超越SOTA!

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:我爱计算机视觉

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

这是一篇新出的3D点云领域非常有意义的论文——《LitePT: Lighter Yet Stronger Point Transformer》。顾名思义,LitePT意为“更轻量但更强大的点云Transformer”,核心目标就是要在保持甚至超越现有最佳性能的同时,大幅度降低3D点云处理模型的参数量、运行速度和内存占用。在自动驾驶、机器人和AR/VR等对效率要求极高的应用场景中,模型的轻量化和高性能是至关重要的。

LitePT-S模型在参数、运行时长和内存占用上与现有SOTA模型的对比,及其在各类基准测试中的性能表现。

在3D点云处理的神经网络架构中,卷积层(Convolutional Layers)和注意力机制(Attention Blocks)常常并存。但它们俩到底该怎么配合,才能发挥最大作用,一直是个悬而未决的问题。传统的做法,比如当下最先进的Point Transformer V3 (PTv3),通常在网络的每个层级都同时使用这两种操作。然而,这真的高效吗?LitePT的作者们对此进行了深入分析和实践探索,并给出了一个令人信服的答案。

  • 论文标题: LitePT: Lighter Yet Stronger Point Transformer

  • 作者机构: 苏黎世联邦理工学院;牛津大学;苏黎世大学

  • 论文地址: https://arxiv.org/abs/2512.13689

  • 项目主页: https://litept.github.io/

  • 代码仓库(代码和模型已经开源啦): https://github.com/prs-eth/LitePT

研究背景:卷积与注意力的“博弈”

在3D点云领域,如何有效地从无序点集中提取几何特征和语义信息,一直是研究热点。卷积层因其局部感受野和权值共享特性,在捕捉局部几何结构方面表现出色。而Transformer中引入的注意力机制,则能通过捕捉长距离依赖来建模全局上下文信息。近年来,结合二者的混合架构,尤其是以Point Transformer V3为代表的模型,在多个基准测试中取得了SOTA(State-of-the-Art)性能。

然而,这种“全都要”的设计也带来了效率上的挑战。卷积层可能在网络的深层阶段引入过多的参数,而注意力机制在早期的高分辨率点云数据上计算成本过高。这种资源消耗,尤其是在高分辨率点云数据上,往往得不偿失。论文作者们正是看到了这一点,才开始思考:有没有可能让卷积和注意力“各司其职”,在最适合自己的位置发挥最大作用呢?

核心发现:分层协同的智慧

通过对PTv3架构的深入分析,研究团队发现了一个非常直观但此前常被忽视的规律:

  • 早期阶段:卷积是效率之选。在网络处理高分辨率点云的早期阶段,主要任务是提取局部几何特征。此时,卷积层以其天然的局部性归纳偏置,能够高效地完成任务。而注意力机制虽然也能达到类似效果,但由于点数众多,其二次方复杂度的计算成本变得异常昂贵,性价比不高。

  • 深层阶段:注意力更显身手。随着网络层级加深,点云分辨率逐渐降低,通道维度增加,网络开始聚焦于捕捉高层语义和全局上下文。这时,注意力机制的优势就显现出来了,它能更有效地处理少量但信息丰富的token。而卷积层在此阶段则可能导致参数冗余。

这一发现为LitePT的设计提供了核心指导原则:在早期阶段使用卷积,在后期阶段切换到注意力。这就像是让专业的人做专业的事,在不同阶段选择最合适的工具。

图中展示了PTv3模型中参数数量和延迟的分布。上方子图显示PTv3中,条件位置编码(通过卷积块实现)占据了大部分参数,尤其是在后期阶段。相比之下,LitePT的PointROPE是无参数的。下方子图则揭示了PTv3中早期阶段注意力模块带来的显著延迟。LitePT将注意力限制在后期阶段,使其既有效又成本较低。

上图清晰地展示了PTv3模型中,卷积模块(特别是其实现位置编码的部分)在参数量上占据了主导,尤其是在深层阶段;而注意力模块则在早期阶段带来了巨大的计算延迟。LitePT正是抓住了这些痛点进行优化。

LitePT架构:轻量而强大的秘密武器

LitePT的模型设计遵循了经典的U-Net结构,并创造性地将其分阶段混合策略应用于编码器。它主要由两大部分组成:

分阶段定制计算块

LitePT的核心在于其“分阶段定制”的计算块。编码器由个阶段组成,每个阶段根据其在网络中的位置被实例化为纯卷积块(ConvBlock)或纯注意力块(AttnBlock)。

其中,是一个关键的超参数,它决定了卷积和注意力机制的“交接点”。例如,当时,前三个阶段使用ConvBlock处理高分辨率的点云数据,专注于局部几何特征提取;而随后的阶段则采用AttnBlock,处理低分辨率但语义更丰富的特征,捕捉长距离依赖。这种设计巧妙地规避了注意力机制在早期阶段的高昂计算成本,同时也避免了卷积层在深层阶段可能导致的参数冗余。

PointROPE:参数无关的3D位置编码

当我们在深层阶段移除昂贵的卷积层并转向纯注意力机制时,一个不可避免的问题是会丢失原有的位置编码信息。为了解决这一问题,LitePT引入了一个新颖且无参数的3D位置编码方案——PointROPE(Point Rotary Positional Embedding,点云旋转位置编码)。

PointROPE的灵感来源于自然语言处理领域中表现卓越的旋转位置编码(RoPE),但将其巧妙地适配到了3D点云数据上。其核心思想是将3D点特征的嵌入(embedding)在XYZ三个轴向上进行独立处理,分别应用1D RoPE,然后将结果拼接起来。 具体来说,对于一个3D点的特征向量,它被分解为沿x、y、z轴的三个子空间:

然后,对每个子空间独立应用标准的1D RoPE:

这里的就是点的坐标。这种处理方式不仅保留了3D点方向上的可分离性,而且通过特征嵌入的旋转有效地编码了相对几何信息

相比于PTv3中通过卷积学习位置编码的方式,PointROPE的巨大优势在于它是完全无参数的,极大地降低了模型的复杂度和内存占用,并且天生对旋转操作友好

LitePT-S的架构概览。模型包含五个阶段,早期阶段采用卷积块,后期阶段采用PointROPE增强的注意力块。LitePT-S使用轻量级解码器,而LitePT-S*则在解码器中对称地添加了卷积或注意力块。

上图展示了LitePT-S的整体架构,它清晰地描绘了编码器中卷积块和注意力块的分阶段应用,以及PointROPE在注意力块中的整合方式。

实验结果:效率与性能的“双丰收”

论文在多个主流的3D点云任务和数据集上对LitePT进行了详尽的实验,包括语义分割、实例分割和目标检测,验证了其卓越的效率和领先的性能。

效率对比:轻若鸿毛,快如闪电

最令人印象深刻的是LitePT-S与SOTA模型PTv3的效率对比。LitePT-S在参数量、运行速度和内存占用上实现了颠覆性的优化

  • 参数量:比PTv3少3.6倍(12.7M vs 46.1M)。

  • 运行速度:快2倍(推理延迟 21ms vs 51ms)。

  • 内存占用:少2倍(2.0G vs 4.1G)。

不同模型在ScanNet数据集上的效率对比。

上表的效率对比数据进一步证实了LitePT在保持高性能的同时,能够大幅降低资源消耗。

策略有效性与最佳实践

论文还通过一系列消融实验验证了其分阶段混合策略的有效性:

  • 卷积与注意力需求:实验表明,在早期阶段逐步移除注意力几乎不影响性能,却能大幅提升效率;而在后期阶段移除卷积则能显著减少参数量,性能影响微乎其微。这再次证明了分阶段定制的正确性。

  • 最佳“交接点”:在NuScenes数据集上的消融实验发现,当时(即前三个阶段用卷积,后两个阶段用注意力),LitePT取得了参数量、延迟和mIoU的最佳平衡。

性能-效率权衡分析。左图显示了在早期阶段逐渐减少注意力模块对性能和效率的影响;右图显示了在后期阶段逐渐减少卷积模块的影响。

上图直观地展示了随着注意力或卷积模块在不同阶段被移除时,模型性能和效率的变化趋势,从而验证了作者的阶段性设计假设。

PointROPE的决定性作用

PointROPE的消融实验也证实了其不可或缺性。移除PointROPE会导致mIoU性能显著下降2.6个百分点。这表明,即使是无参数的位置编码,也对捕捉3D点云的几何信息至关重要。

任务性能:全面领先或持平SOTA

  • 语义分割:在NuScenes和Waymo等户外数据集上,LitePT-S相较于PTv3实现了显著的性能提升,mIoU提升1.8个百分点。在ScanNet和Structured3D等室内数据集上,LitePT-S在参数量远少于PTv3的情况下,性能与之持平或更优。特别是在更大的Structured3D数据集上,LitePT-S始终优于包括PTv3在内的所有竞争方法。

NuScenes和Waymo验证集上的户外语义分割结果。

上表展示了LitePT-S在户外语义分割任务上的出色表现,在NuScenes和Waymo数据集上都取得了最高的mIoU

  • 实例分割:在ScanNet数据集上,LitePT-S*(具有更复杂的解码器)刷新了SOTA,mAP达到了64.9,比PTv3提升了3.2个百分点

ScanNet和ScanNet200验证集上的室内实例分割结果。

上表突出了LitePT-S*在ScanNet实例分割任务上的新SOTA成就。

  • 目标检测:在Waymo数据集上,LitePT在车辆和骑行者检测上都超越了PTv3,在平均AP/APH指标上也取得了最高的70.7

Waymo单帧输入户外目标检测结果。

上表展示了LitePT在Waymo户外目标检测任务上的领先性能。

一点思考

LitePT的成功,不仅在于它提供了一个更轻量、更高效、性能更强的3D点云处理骨干网络,更在于它明确指出,并非所有操作都需要在所有阶段都存在,而是应该根据任务和数据特征,进行有针对性的、分阶段的优化

本文仅做学术分享,如有侵权,请联系删文。

  • 3D视觉1V1论文辅导

3D视觉1V1论文辅导来啦!

3D视觉学习圈子

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

3D视觉全栈学习课程:www.3dcver.com

3D视觉交流群成立啦!

扫码添加微信,备注:姓名+方向+公司或高校名称,邀你入3D视觉交流群!
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/6 17:02:42

Chipsbank APTool V7200:专业USB量产解决方案与闪存修复技术指南

工具定位与技术特色 【免费下载链接】ChipsbankAPTool量产工具V72002020-00-21 Chipsbank APTool量产工具是专门针对Chipsbank生产的USB控制芯片设计的一款强大工具。本版本V7200发布于2020年2月21日,针对闪存盘的生产、测试和修复提供了全面的解决方案。通过这款工…

作者头像 李华
网站建设 2026/5/13 22:31:07

如何通过AISuite统一接口实现5步跨平台AI工具调用管理

如何通过AISuite统一接口实现5步跨平台AI工具调用管理 【免费下载链接】aisuite Simple, unified interface to multiple Generative AI providers 项目地址: https://gitcode.com/GitHub_Trending/ai/aisuite 想象一下这样的场景:你正在开发一个需要调用多…

作者头像 李华
网站建设 2026/5/13 7:38:56

redis 发布订阅功能

redis发布订阅是一种消息通知模式,发布者发送消息,订阅者接收消息。角色说明发布者 (Publisher)向频道发送消息的客户端订阅者 (Subscriber)订阅频道接收消息的客户端频道 (Channel)消息传递的管道/主题基本命令1. 订阅频道#订阅一个或多个频道 SUBSCRIB…

作者头像 李华
网站建设 2026/5/12 10:17:22

【保姆级教程】10分钟轻松搭建属于自己的AI助手

想拥有专属AI助手,无需复杂编码,无需漫长等待!借助扣子平台的可视化能力,搭配数眼智能搜索与网页阅读接口,全程免费!10分钟就能快速搭建完成,轻松实现精准信息检索与网页内容解析。本文为你带来…

作者头像 李华
网站建设 2026/5/13 23:17:38

3D模型生成终极指南:腾讯Hunyuan3D-2mini轻量化技术深度解析

还在为复杂的3D建模软件发愁吗?专业建模师需要花费数小时完成的工作,现在普通人只需输入文字描述,30秒内就能获得完整的3D模型。腾讯最新开源的Hunyuan3D-2mini模型,以仅0.6B的参数规模,实现了前所未有的"轻量高速…

作者头像 李华