RepPoints: Point Set Representation for Object Detection

[ICCV-2019] RepPoints: Point Set Representation for Object Detection

paper link

code link

1. Abstract

当前的目标检测器大多数依赖于边界框(bounding boxes)来表示目标,比如 anchors, proposals, predictions。边界框使用很方便,但仅提供目标的粗略定位,并导致提取的目标特征也是粗略的。作者提出 RepPoints (representative points),一个精细的目标表示。它使用一组采样点来表示目标,这对定位和识别都很有帮助。RepPoints 学会自动地分配采样点,并且采样点可以指示有语义的局部区域。 此外,它们不需要使用 anchor 来采样边界框的空间。

2. The RepPoints Representation

RepPoints

RepPoints 使用一组自适应的采样点:

$$\mathcal{R}=\{(x_k, y_k)\}^n_{k=1},$$

这里 $n$ 是采样点的数量。实验中,$n=9$。

RepPoints 修正

在 multi-stage 目标检测方法中,渐进的修正边界框的定位和特征提取是成功的关键。针对 RepPoints,修正被简单的表示为:

$$\mathcal{R}_r=\{(x_k+\Delta x_k, y_k + \Delta y_k)\}^n_{k=1}$$

这里 $\{(\Delta x_k, \Delta y_k)\}^n_{k=1}$ 是新采样点相对于旧采样点的预测偏移。我们注意到,由于RepPoints的修正过程中的偏移量是相同的比例,因此这种修正不会遇到边界框回归参数之间的尺度差异的问题。

转换 RepPoints 到边界框

提出了三种转换形式:

学习 RepPoints

RepPoints 的学习被目标定位损失和目标识别损失驱动。为了计算目标定位损失,我们首先使用上面提到的转关函数将 RepPoints 转换成矩形框。然后计算转换后的矩形框和 ground-truth 之间的差异。实验中,作者使用 top-left 和 bottom-right 点的 smooth $l1$ 距离表示定位损失。Figure 3 表明当训练被组合的目标定位和目标识别损失驱动时,目标的极端点和语义关键点可以被自动地学习。

3. RPDet: an Anchor Free Detector

作者设计了一个 anchor-free 目标检测器,该检测器利用 RepPoints 代替边界框作为基础表示。在 multi-stage 框架中,目标的表示形式发生如下变化:

RepPoints Detector (RPDet) 基于 deformable convolution 所构建,并且使用了 2 个识别阶段,如图2所示。可变形卷积与 RepPoints 很好地结合,因为它的卷积是在不规则分布的样本点的集合上计算的,相反,其识别反馈可以指导训练这些点的位置学习。

基于中心点的初始对象表示

RepPoints 的利用

其他细节