Point Transformer V2 论文

BinaryOracle2025/9/7大约 2 分钟约 505 字

Point Transformer V2 论文

论文: Point Transformer V2: Grouped Vector Attention and Partition-based Pooling
代码: https://github.com/Pointcept/PointTransformerV2

引言

Point Transformer (PTv1) 首次将自注意力网络引入三维点云理解，并结合 向量注意力 与 U-Net 风格的编码器-解码器框架，在分类、分割等任务上取得了显著成绩。但其仍存在一些不足：

提出的方法

作者提出了新的 Point Transformer V2 (PTv2)，在多个方面改进了 PTv1：

分组向量注意力（Grouped Vector Attention, GVA）
将向量注意力划分为多个组，每组共享注意力权重，从而减少参数量，提升效率。
GVA 同时包含了 多头注意力 与 向量注意力 的优势，并且二者都可以看作是 GVA 的特例。
改进的位置编码机制
在关系向量中额外引入 位置编码乘子，强化三维点的空间关系，使模型更好地利用点云的几何信息。
基于分区的池化策略
将点云划分为 互不重叠的分区，并直接在同一区域内融合点信息，避免了传统方法对采样和邻域查询的依赖，实现了更高效、更精准的空间对齐。