近日,智能车辆团队论文《LVMSOD: Lightweight Visual Mamba Small Object Detection for Autonomous Vehicles》在IEEE Internet of Things Journal上发表。
1. 文章内容
小目标检测是自动驾驶环境感知的关键,对于车辆精准识别远处行人、非机动车等关键目标、保障行车安全至关重要。统计表明,90%以上的交通事故与驾驶人未能及时发现潜在危险相关,提升小目标检测精度可直接改善感知距离与响应速度,从而显著降低碰撞风险。
当下,兼顾高精度与低计算复杂度的轻量化小目标检测技术长期被基于Transformer的复杂模型主导,其计算资源消耗大、小目标细节感知能力不足,成为制约车载嵌入式平台高效部署的关键瓶颈,关键技术自主研发刻不容缓。
然而,小目标具有像素占比小、纹理信息弱、易受背景干扰等特征,使其精确检测极为困难;同时自动驾驶场景中目标尺度变化剧烈、遮挡频繁、动态环境复杂,进一步增加了检测难度。现有方法多采用基于CNN或注意力机制的设计思路:CNN方法虽计算效率高,但受限于卷积感受野,难以捕获全局语义依赖,易导致远距离目标漏检;Transformer方法虽能建模长距离依赖,但其二次计算复杂度在处理高分辨率特征图时资源消耗激增,难以满足实时性要求。其核心难点在于如何在有限计算资源下,高效融合局部细节与全局上下文信息,实现对多尺度小目标特征的精确表达与选择性聚焦。
针对上述问题,不同于现有基于单一CNN或注意力机制的方法,本研究的创新思路在于引入具备线性复杂度的选择性状态空间模型(Mamba),构建全局-局部双支路嵌套特征提取与融合架构,从而解决小目标检测中精度与效率难以兼顾的根本矛盾。具体地,研究了Mamba在视觉任务中的二维选择性扫描机制,分析了其全局感知能力与局部细节保持之间的协同关系,发现了通过嵌套结构可实现局部与全局特征的渐进式融合;引入双支路嵌套Mamba模块(NML)进行特征提取,设计了视觉检测Mamba模块(VDM)与轻量化门控MLP(LGMLP)以增强对细粒度特征的建模能力;利用深度可分离卷积与分布因子改进轻量化卷积层(LCL),在降低参数量的同时提升特征提取效率;在多个公开数据集上开展了全面的实验验证与消融分析。
实验测试表明,相较于YOLOv8、RT-DETR等主流方法,所提出的LVMSSD方法在VisDrone数据集上mAP@0.5提升至45.3%,AP_S达到16.8%,均优于同类轻量级模型;在KITTI数据集上mAP@0.5达到93.3%,同时计算复杂度(GFLOPS)显著低于Deformable DETR等Transformer类方法,有效解决了小目标检测中高精度与低复杂度的矛盾,在复杂交通场景下展现出优异的实时检测能力与鲁棒性。
本研究从Mamba与视觉特征融合的新视角,发现了基于双支路嵌套的状态空间模型可有效兼顾全局上下文建模与局部细节保留,揭示了选择性扫描机制在视觉特征提取中的多层次信息融合机理,阐明了全局-局部渐进式融合对提升小目标感知的关键作用,将小目标检测的特征表达能力提升到新的维度;提出了LVMSSD轻量化检测方法,构建了嵌套Mamba与轻量化模块协同的特征提取新策略,发展了面向自动驾驶场景的小目标检测新范式,填补了状态空间模型在车载轻量级检测领域系统化应用的空白,可为智能汽车环境感知与高精度自动标注技术的研发提供重要的理论支撑。

2. 论文作者
付尧; 高铭; 王胤霖; 邓欣; 李洋; 胡满江; 边有钢; 丁荣军
3. 论文链接
https://ieeexplore.ieee.org/abstract/document/11395945