SegMaR利用设计的固定注释和经高斯运算扩展后的边缘注释以合并和相交的方式生成一种包含边缘线索的判别掩码,以此作为监督来关注伪装相关的边缘信息。另外还设计了一种目标放大和多阶段训练的方式进行迭代细化,但是迭代优化终止条件缺乏理论依据,且多阶段训练方式导致训练复杂且耗时。
Segment, Magnify and Reiterate: Detecting Camouflaged Objects the Hard Way
Jia_Segment_Magnify_and_Reiterate_Detecting_Camouflaged_Objects_the_Hard_Way_CVPR_2022_paper.pdf
现有的方法主要是利用单阶段的检测方式,而忽略具有低分辨率的小物体细化边缘需要比大物体更多的操作。为了解决伪装物体检测(COD)问题,我们受到人类注意力和从粗到细的检测策略的启发,从而提出了一个迭代细化的框架,即SegMaR,它以多阶段检测的方式整合了Segment、Magnify和Reiterate。
首先,我们的方法构建了一个新的伪装分割网络来生成一个初始掩码预测。接下来,对象放大步骤将原始图像和掩码预测作为输入,并利用基于注意力的采样器自适应地放大伪装对象。可以观察到,图像尺寸保持不变,而伪装物体在图像中所占的比例更大。此外,我们通过将具有放大对象的图像传回同一网络并微调网络参数来运行迭代细化。经过更多细化阶段后,SegMaR 能够细化和丰富检测到的细节,尤其是对于小物体。
并且, 我们实现了一种有效的伪装分割网络,该网络引入了分心模块,以更好地解开目标特征。此外,我们还提出了一种新的区分掩码,使网络能够注意到最重要的目标区域。
$P_{\text{dis}}$ 为预测的 discriminative 掩模. $G_{\text{dis}}$ 为 discriminative 掩模的GT, 以监督网络以更多地关注关键(Fixation)和边缘区域(Dilated edge)。
$$ G _ { d i s } = G _ { b i n } \cap \left( G _ { f i x } \cup A \left( \sigma , \lambda , G _ { e d g e } \right) \right) $$
$G_{fix}$ 也是标注数据, 但是存在注意点超出物体范围的情况.
$P_{\text{bin}}$ 为预测的最终二进制掩模.
Discriminative Decoder 与 Binary Decoder 有着相同的结构, 为图右侧所示. 输入特征图首先是空洞空间金字塔池(ASPP)组件, 目的是在图像中实现多尺度感受野。然后将池化图连接在一起并传递到分心模块(DM)。DM 是一种有效的技术,可以将先前的特征图分别分解为前景和背景特征。与原始 DM 模块不同的是, 我们通过添加两个并行的残差通道注意块(RCAB)来定制 DM 模块,这使得模块更多地关注特征图中的信息通道和高频信息(例如边缘、纹理)。之后,我们使用逐元素减法来反转背景特征,使用逐元素加法来增强前景特征。分心操作的输出特征 $f_d$ 表示为
$$ f _ { d } = B R \left( \beta f _ { a } + B R \left( - \alpha f _ { b } \right) \right) $$
其中 BR 是批归一化和 ReLU 的组合,$f_a$ 和 $f_b$ 分别代表前景和背景特征。 $α$ 和 $β$ 是两个可学习的参数,初始化为 1。最后,在 DM 之后添加另一个 ASPP 组件以生成输出特征。
伪装的物体通常只占整个图像的一小部分,这使得很难检测到准确的物体边缘。受人类总是靠近目标以便看得更清楚这一事实的启发,我们建议在压缩背景信息的同时放大伪装对象.
我们采用基于注意力的采样器算法,根据注意力图D对伪装目标进行放大,利用注意力图计算原始图像和采样图像的坐标之间的映射函数,关注值越大的区域越有可能被采样。通过计算注意力图D在x轴和y轴上的最大值来得到边缘分布.
SegMaR的主要优势是通过以多阶段方式重播Segment和放大步骤进行迭代细化。在训练期间,所有阶段共享相同的网络参数。此外,我们使用相同的超参数,如高斯模糊和核大小来放大对象。当两个连续阶段之间的损失差异变得细微时,迭代细化将终止。