完爆全部YOLO家族!RT-DETRv3突破目标检测网络的极限!

完爆全部YOLO家族!RT-DETRv3突破目标检测网络的极限!

文章图片

完爆全部YOLO家族!RT-DETRv3突破目标检测网络的极限!

文章图片

完爆全部YOLO家族!RT-DETRv3突破目标检测网络的极限!

文章图片

完爆全部YOLO家族!RT-DETRv3突破目标检测网络的极限!
0. 论文信息
标题:RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision
作者:Shuo Wang Chunlong Xia Feng Lv Yifeng Shi
机构:Baidu Inc
原文链接:https://arxiv.org/abs/2409.08475
1. 引言
目标检测是计算机视觉中的一个重要基础问题 , 主要关注于获取图像中物体的位置和类别信息 。 实时目标检测对算法性能有更高要求 , 如推理速度需大于30帧每秒(FPS) , 在自动驾驶、视频监控和物体追踪等实际应用中具有巨大价值 。 近年来 , 由于其实时高效的推理速度和优越的检测精度 , 实时目标检测受到了研究人员和业界的广泛关注 。 其中 , 基于卷积神经网络(CNN)的单阶段实时目标检测器最受欢迎 , 如YOLO系列 。 它们均采用一对多标签分配策略 , 设计了高效的推理框架 , 并使用非极大值抑制(NMS)来过滤冗余的预测结果 。 尽管这种策略引入了额外的延迟 , 但它们在精度和速度之间取得了平衡 。
DETR是首个基于Transformer的端到端目标检测算法 。 它采用集合预测并通过匈牙利匹配策略进行优化 , 从而消除了对NMS后处理的需求 , 简化了目标检测过程 。 随后的DETR变体(如DAB-DETR、DINO和DN-DETR等)进一步引入了迭代细化方案和去噪训练 , 有效加速了模型的收敛速度并提高了性能 。 然而 , 其高计算复杂度显著限制了其实际应用 。
RT-DETR是首个实时端到端基于Transformer的目标检测算法 。 它设计了一个高效的混合编码器、IoU感知查询选择模块和一个可扩展的解码器层 , 取得了比其他实时检测器更好的结果 。 然而 , 匈牙利匹配策略在训练过程中提供了稀疏监督 , 导致编码器和解码器的训练不足 , 从而限制了方法的最佳性能 。 RT-DETRv2通过优化训练策略进一步增强了RT-DETR [32
的灵活性和实用性 , 在不牺牲速度的情况下提高了性能 , 但训练时间更长 。 为了有效解决目标检测中的稀疏监督问题 , 我们提出了一种分层密集正监督方法 , 通过在训练过程中引入多个辅助分支来有效加速模型收敛并提升模型性能 。
2. 摘要
RT-DETR是第一款基于实时端到端转换器的物体检测器 。 它的效率来自于框架设计和匈牙利匹配 。 然而 , 与YOLO系列等密集监督检测器相比 , 匈牙利匹配提供的监督要稀疏得多 , 导致模型训练不足 , 难以实现最佳结果 。 为了解决这些问题 , 我们提出了一种基于RT-DETR的分层密集正监督方法 , 命名为RT-DETRv3 。 首先 , 我们引入一个基于CNN的辅助分支 , 它提供密集的监督 , 与原始解码器协作来增强编码器特征表示 。 其次 , 为了解决解码器训练不足的问题 , 我们提出了一种新的包含自我注意扰动的学习策略 。 该策略使多个查询组的阳性样本的标签分配多样化 , 从而丰富了阳性监督 。 此外 , 我们引入了一个共享权重的解码器分支 , 用于密集的积极监督 , 以确保更多高质量的查询匹配每个基本事实 。 值得注意的是 , 上述所有模块仅供培训使用 。 我们进行了大量的实验来证明我们的方法在COCO val2017上的有效性 。 RT-DETRv3明显优于现有的实时检测器 , 包括RT-DETR系列和YOLO系列 。 例如 , 与RT-DETR-R18/RT-DETRv2-R18相比 , RT-DETRv3-R18实现了48.1%的AP (+1.6%/+1.4%) , 同时保持了相同的延迟 。 同时 , 它只需要一半的时间就可以达到相当的性能 。 此外 , RT-DETRv3-R101可以获得令人印象深刻的54.6% AP , 优于YOLOv10-X 。 代码将很快发布 。
3. 效果展示

4. 主要贡献
我们的主要贡献如下:
? 我们引入了一个基于CNN的一对多标签分配辅助头 , 它与原始检测分支协同优化 , 进一步增强了编码器的表征能力 。
? 我们提出了一种具有自注意力扰动的学习策略 , 旨在通过跨多个查询组多样化标签分配来增强对解码器的监督 。 此外 , 我们引入了一个共享权重的解码器分支进行密集正监督 , 以确保每个真实框都有更多高质量的查询与之匹配 。 这些方法在不增加额外推理延迟的情况下 , 显著提高了模型性能并加速了收敛 。
? 在COCO数据集上进行了大量实验 , 充分验证了所提方法的有效性 。 如图1所示 , RT-DETRv3显著优于其他实时检测器 , 包括RT-DETR系列和YOLO系列 。 例如 , 与RT-DETR-R18相比 , RT-DETRv3-R18在保持相同延迟的情况下 , 实现了48.1%的平均精度(AP)(+1.6%) 。 此外 , RT-DETRv3-R50的性能比YOLOv9-C高出0.9% AP , 同时延迟减少了1.3毫秒 。
5. 方法
RT-DETRv3 的整体结构如图 2 所示 。 我们保留了 RT-DETR(以黄色高亮显示)的整体框架 , 并额外引入了所提出的层次化解耦密集监督方法(以绿色高亮显示) 。 首先 , 输入图像通过卷积神经网络(CNN)骨干(如 ResNet)和一个称为高效混合编码器的特征融合模块进行处理 , 以获得多尺度特征 {C3 C4 C5 。 然后 , 这些特征被并行地输入到基于 CNN 的一对多辅助分支和基于 Transformer 的解码器分支中 。
对于基于 CNN 的一对多辅助分支 , 我们直接采用现有的最先进的密集监督方法 , 如 PP-YOLOE , 来协同监督编码器的表征学习 。 在基于 Transformer 的解码器分支中 , 多尺度特征首先被展平和拼接 。 接着 , 我们使用一个查询选择模块从这些特征中选择前 k 个特征来生成对象查询 。 在解码器内部 , 我们引入了一个掩码生成器 , 该生成器产生多组随机掩码 。 这些掩码被应用于自注意力模块 , 影响查询之间的相关性 , 从而区分正查询的分配 。 每组随机掩码都与相应的查询配对 , 如图 2 中的 OQo2o?1...OQo2o?n 所示 。 此外 , 为了确保每个真实框都有更多高质量的查询与之匹配 , 我们在解码器内部整合了一个一对多的标签分配分支 。

RT-DETR是一个专为目标检测任务设计的实时检测框架 。 它集成了 DETR中端到端预测的优势 , 同时优化了推理速度和检测精度 。 为了实现实时性能 , 编码器模块被替换为轻量级 CNN 骨干和一个设计用于高效特征融合的高效混合编码器模块 。 RT-DETR提出了一个不确定性最小化查询选择模块 , 用于选择高置信度特征作为对象查询 , 从而降低查询优化的难度 。 随后 , 解码器的多个层通过自注意力、交叉注意力和前馈网络(FFN)模块来增强这些查询 , 预测结果由多层感知机(MLP)层产生 。 在训练优化过程中 , RT-DETR采用匈牙利算法进行一对一分配 。 对于损失计算 , 它使用 L1 损失和 GIoU 损失来监督边界框回归 , 并使用可变焦点损失(VFL)来监督分类任务的学习 。

6. 实验结果

7. 总结 & 未来工作
在本文中 , 我们提出了一种基于Transformer的实时目标检测算法 , 名为RT-DETRv3 。 该算法在RT-DETR的基础上 , 通过集成多个密集正样本辅助监督模块来构建 。 这些模块对RT-DETR中的编码器和解码器的特定特征实施一对多目标监督 , 从而加速了算法的收敛速度并提高了其性能 。 重要的是 , 这些模块仅在训练过程中使用 。 我们在COCO目标检测基准数据集上验证了算法的有效性 , 实验结果表明 , 与其他实时目标检测器相比 , 我们的算法取得了更好的结果 。 我们希望我们的工作能够激发研究人员和开发人员在基于Transformer的实时目标检测领域的灵感 。
对更多实验结果和文章细节感兴趣的读者 , 可以阅读一下论文原文~
3D视觉工坊可提供顶会论文的课题如下:







【完爆全部YOLO家族!RT-DETRv3突破目标检测网络的极限!】

    推荐阅读