近日,智能车辆团队论文《PPF-Det: Point-Pixel Fusion for Multi-Modal 3D Object Detection》在IEEE Transactions on Intelligent Transportation Systems发表。
针对自动驾驶多模态3D目标检测中点云和图片两种数据结构存在较大差异,难以深度挖掘利用图像信息并与点云特征进行准确且多样化的交互融合的问题。本文提出了一种新颖的基于点-像素融合策略的多模态目标检测框架(PPF-Det)。该框架整体包含三个子模块,多像素感知(Multi Pixel Perception)、共享复合点特征编码器(Shared Combined Point Feature Encoder)和逐点逐体素三次注意力融合(Point-Voxel-Wise Triple Attention Fusion)。 具体地,多像素感知模块可以在减少点云和像素之间对齐误差的基础上,充分利用图像语义信息来缓解点云与图像分辨率不匹配的问题,同时生成具有点云形式的点像素特征。然后,本文进一步提出了共享复合点特征编码器能够初步提取点云特征和点像素特征,同时利用两组特征共享空间坐标的性质,降低该编码器在3D空间上分组聚合过程的耗时。最后,我们创新地设计了一种基于精细对齐融合策略的逐点逐体素三次注意力融合,不仅对点云特征和点像素特征进行了不同形式上的融合,既保留了点层面上三维空间的几何特征,也获取了体素层面上的高维度聚合特征,同时还利用了注意力机制来更好地平衡激光雷达点云和相机图片之间的特征融合过程,以获取更加准确、全面的融合特征。实验结果证明我们的方法表现出色,在KITTI 3D目标检测排行榜中超过了大多数先进的多模态目标检测方法。本文主要贡献如下:
1)提出了一个更通用的多模态框架命名为PPF-Det,可以实现细粒度的点云和图像特征融合,并通过大量实验证明了模型有效性。
2)提出了MPP模块来解决图像利用率低下的问题,并且基于逐点级融合来初步整合邻近像素信息获取高语义特征。
3)提出共享复合点特征编码结构来加速特征提取模块,并且深度编码点云和点像素特征。
4)提出了一种逐点逐体素三次注意力融合模块,能够基于特征对齐策略来实现逐点和逐体素的多层次特征融合。
论文作者:谢国涛、陈志远、高铭、胡满江、秦晓辉
论文链接:https://ieeexplore.ieee.org/abstract/document/10401011