导图社区 遮挡目标检测
一张思维导图带你了解CVPR的遮挡目标检测,涵盖了CVPR的介绍、背景、实验、结论等,有需要的朋友收藏下图学习吧!
计算机视觉中遮挡目标检测与识别技术研究讲述了基于灰度信息的方法、基于边界信息的方法、基于局部特征的方法等,值得收藏学习哦!
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
Detection in Crowded Scenes: One Proposal, Multiple Predictions
1、Introduction
拥挤场景中的问题
高度重叠的实例很难分别被检测器识别
实例之间可能有很多重叠导致被NMS错误的抑制
创新点
相比于每个proposal预测单个实例,本文提出的方法对于每个proposal预测一组高度重叠的实例
提出一种新的损失函数:EMD
针对传统NMS的缺点,提出了Set NMS来一直不同proposal的重复
设计了一个可选的细化模块(refinement module,RM)来处理潜在的false positives
结果
适用于所有基于proposal的检测器
主要的修改是增加了一个预测分支,这会带来微不足道的代价
在不同的数据集上的实验表明,无论拥挤程度如何,该方法都能很好地处理所有场景
2、Background
基于proposal的目标检测器主要包括两个步骤
第一步: 生成proposal box。可通过Selective Search、预定义achor、Region Proposal Networks。
第二步: 实例预测。即预测每个proposal对应的修正检测结果。
当前的检测框架通常使用检测函数来确定proposal是否与ground truth实例相关联,以此进一步确定类别标签和修正的边界框。
Advanced NMS 对于大量的proposal,为了避免重复,引进了NMS来进行删除,但这种方法对严重遮挡的场景并不适用。
Soft-NMS
Softer-NMS
Loss functions for croeded detection 之前的一些工作提出了新的损失函数来解决拥挤检测问题
Aggregation Loss:强制proposal接近并定位于相应的GT
Repulsion Loss:引入额外的惩罚来处理proposal与GT的关系
利用改进的损失函数,能够提高拥挤场景下的检测质量。然而,由于框架中仍然需要传统的NMS,因此很难处理高度重叠的实例。
Re-scoring
在许多检测框架中,只要重叠大于给定的阈值,proposal就被绑定到GT,这通常会导致proposal和GT之间存在多对一的关系,因此NMS需要删除重复的proposal。
相反,如果设计损失函数以鼓励一对一的关系,则可以消除NMS,以避免漏检,该方法命名为Re-scoring。
3、Our Approach:Multiple Instance Prediction
对于多个目标严重重叠,如果一个proposal对应于一个目标,那么它很可能与其他目标重叠。所以,与其预测一个单一的目标,为什么不预测所有的目标? 对于每个proposal,预测其相应的GT实例集,而不是单个对象。
Instance set prediction
对于每个proposal box,大多数基于提议的现代检测框架都使用检测函数来预测一对(ci,li)来表示关联实例,其中ci是具有置信度的类标签,li是相对坐标。
EMD loss
损失函数的目标是设计一个函数来最小化proposal对应的预测与GT实例之间的差距。
Set NMS
在本文的方法中,尽管每个proposal能够预测多个相关实例,但如果传统的NMS仍然涉及到后处理,那么就不可能在拥挤的场景中有效的检测对象。
由于EMD损失,一个proposal预测的实例在定义上是惟一的。换句话说,只有来自不同proposal的预测之间存在重复。
Set NMS:每次在NMS算法中的一个框抑制另一个框之前,插入一个额外的测试,以检查两个盒子是否来自同一proposal,如果是,则跳过抑制。
只有将多实例预测和Set NMS结合使用才能在拥挤检测中取得显著的改善。
Refinement module
每个proposal都预计将生成一组实例,而不是单个实例,因为生成的预测很多,所以可能会产生误报。
优化模块将预测作为输入,结合建议特征,然后进行第二轮预测,期望其能够纠正可能的错误。
Discussion:relation to previous methods
预测多个实例已经被使用
Double-person detector
MultiBox
YOLO v1/v2
最相关的前期工作是:引入LSTM来解码图像每个网格中的实例。
3.1.Network Architecture
4、Experiment
Datasets
严重重叠:CrowdHuman,包含了15000、4370、5000张图片用于训练、验证、测试。
中度重叠:CityPersons,包含了2975、500、1525张图像用于训练、验证、测试。
轻微重叠:COCO
Evaluation metrics
Averaged Precision(AP):AP反映了检测结果的正确率和查全率。AP越大,性能越好。
MR^-2: log-average Miss Rate on False Positive Per Image (FPPI) in [10−2,100]。
Jaccard Index (JI):用于评价检测器的计数能力。
Detailed Settings
ResNet-50作为所有实验的骨干网络。 FPN作为基线检测框架用于对比。 使用RolAlign代替原有的RolPooling。
4.1.Experiments on CrowdHuman
4.2.Experiments on CityPersons
4.3.Experiments on COCO
5、Conclusion