OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers
[2022][ECCV]OSFormer_Chinese.pdf
ECCV 2022 华科Ð提出首个用于伪装实例分割的一阶段Transformer的框架OSFormer!代码已开源!
在本文中,作者提出了OSFormer,这是第一个用于伪装实例分割(CIS)的一阶段Transformer框架。OSFormer基于两个关键设计。
首先,通过引入位置引导查询和混合卷积前馈网络,作者设计了一个**位置感知Transformer(LST)**来获取位置标签和实例感知参数。
其次,作者开发了一种从粗到精的融合(CFF),以合并来自LST编码器和CNN主干的不同上下文信息。耦合这两个组件使OSFormer能够有效地混合局部特征和长期上下文依赖,以预测伪装实例。
与两阶段框架相比,本文的OSFormer在不需要大量训练数据的情况下达到了41%的AP,并实现了良好的收敛效率。
本文提出的OSFormer包括四个基本组件:
给定输入图像 $I∈\mathbb{R}^{H×W×3}$,走着使用来自CNN主干的多尺度特征 $\{C_i\}_{i=2}^5$(即ResNet-50)。为了降低计算成本,作者直接将最后三个特征映射($C_3,C_4,C_5$)展平并连接成一个256个通道的序列 $X_m$作为LST编码器的输入。对于 $C_2$ 特征,将其作为高分辨率低层特征输入到CFF模块中,以捕获更多伪装的实例线索。