来源:量子位
萧箫发自凹非寺
量子位报道公众号 QbitAI
当 Transformer 遇上 3D 点云,效果会怎么样?
一个是当下最热门的模型(NLP、图像领域表现都不错),另一个是自动驾驶领域、机器人抓取等领域的关键技术。
来自清华计算机系的团队,开发出了一个全新的 PCT 网络,相比于目前主流的点云分割模型 PointNet,不仅参数量减少,准确度还从 89.2% 提升到了 93.2%。
而且,相比于主流的点云分割网络 PointNet,分割的边缘明显更清晰:
但将 Transformer 推广到 3D 点云,相关研究还非常少。
为此,团队自己做出了一种 Transformer 模型,并创新了其中的一些结构,将之适配到了点云上。
将 Transformer 推广到点云上
点云是一个坐标系下点的数据集,包括坐标、颜色、强度等多种信息。
而 3D 点云,则是用点云表示三维世界的一种方法,可以想象成将三维物体进行原子化,用多个点来表示一种物体。
之所以 3D 建模采用点云这种方法,是因为它不仅建模速度快,而且精度高、细节更准确。
点云的生成方法,也符合激光雷达收集数据的特性,目前已经被用于自动驾驶技术中。
那么,为什么要用 Transformer 生成点云呢?
由于点云数据自身的不规则性和无序性,此前无法直接用卷积神经网络对点云进行处理。
如果想用深度学习处理点云相关的任务,就会非常不方便。
但当研究者们将目光放到 Transformer 上时,发现它的核心注意力机制,本身其实非常适合处理点云。
点云处理,需要设计一种排列不变、且不依赖于点之间连接关系的算子;注意力机制本身,就是这种算子。
加之 Transformer 在之前的图像任务上,都已经取得了非常不错的性能,用来做点云的话,说不定效果也不错。
因此,团队开发了一个名叫 PCT(Point Cloud Transformer)的点云 Transformer,成功实践了这一点。
网络结构整体分为三部分:输入嵌入、注意力层和分类分割。
输入嵌入部分的目的,是将点云从欧式空间 xyz 映射到 128 维空间。这里分为两种嵌入的方式,点嵌入和邻域嵌入,点嵌入负责单点信息,邻域嵌入则负责单点和邻域信息。
在注意力层中,作者采用了自注意力(self-attention)机制和偏置注意力(offset-attention)机制。
其中,offset-attention 也是这篇论文的创新之处,作者为了让 Transformer 的注意力机制能更好地作用于点云,提出了这种注意力机制,性能要比自注意力机制更好。
而在分类分割操作上,作者选择对经过注意力层后的特征直接进行池化(采样),再分别进行分类和分割的下一步操作。
那么,这样的网络结构,是否效果真如想象中那么好?
参数少一半,效果还更好
事实上,从分类和分割的效果上来看,图像做得都还不错。
先看分类的效果,在 ModelNet40 数据集上的分类结果表明,PCT 的分类精度可以达到 93.2%,超越了目前所有点云的分类模型。
而在 3D 点云分割的效果上,模型做得也不错。
从注意力图(attention map,标量矩阵,查看层的重要性)的可视化来看,模型分割的边缘和形状也很清晰。
那么,与其他网络对比的分割效果如何呢?
下图是 PCT 与其他网络对比的效果。
从 16 类列出的物体检测精确度来看,PCT 的效果达到了 86.4% 的水平,超过了目前所有 3D 点云分割的最新模型,同样达到了 SOTA。
至于模型参数,最终的结果也非常不错。
其中参数最大的 PCT,精度也达到了最高的 93.2%,如果更侧重于小型参数量,那么 NPCT 和 SPCT 则在 1.36M 参数的情况下,精确度分别达到了 91% 和 92%。
从实际对比情况来看,三种 PCT 网络结构的分割效果,都要比 PointNet 的效果好得多(最右边为初始模型)。
作者介绍
6 名作者来自清华大学胡事民团队,卡迪夫大学。
清华大学计算机系的图形学实验室成立于 1998 年 3 月,相关论文曾多次在 ACM SIGGRAPH、IEEE CVPR 等重要国际刊物上发表。
实验室目前的主要研究方向为计算机图形学、计算机视觉、智能信息处理、智能机器人、系统软件等。
一作国孟昊,清华大学 CS 博士在读,来自胡事民团队。
国孟昊曾经是西安电子科技大学软件工程 2016 级本科生,大二曾获 ACM 金牌,数学建模美赛一等奖,在腾讯、商汤实习过。
PCT 论文地址:
https://arxiv.org/abs/2012.09688
PCT 项目地址:
https://github.com/MenghaoGuo/PCT
参考链接:
https://mp.weixin.qq.com/s/76fJy69LELdndbSqpbvRbw
相关推荐
© 2020 asciim码
人生就是一场修行