CVPR2022 Oral: Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised Semantic Segmentation and Localization

GitHub - lukemelas/deep-spectral-segmentation: [CVPR 2022] Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised Semantic Segmentation and Localization

Abstract

现有的无监督方法难以处理包含多个对象的复杂场景。
我们从传统的谱分割方法中汲取灵感，将图像分解重新定义为一个图划分问题。
我们研究了自监督网络中特征的 affinity 矩阵的拉普拉斯特征向量。我们发现这些特征向量已经将图像分解为有意义的片段，并可以很容易地用于定位场景中的对象。

我们的方法首先利用自监督网络提取与图像块对应的密集特征。然后我们在图像块上构建一个加权图，其中边的权重是图像块的语义 affinity 矩阵，然后将该图进行拉普拉斯矩阵的特征分解。我们发现，在不强加任何额外结构的情况下，该图的拉普拉斯算子的特征向量直接对应于具有语义意义的图像区域, 具有最小非零特征值的特征向量通常对应于场景中最突出的对象。

Method

$给定一张图像，我们首先使用网络 $φ$ 中提取密集特征，并使用这些特征构建语义 affinity 矩阵 $W_{feat}$，然后将其与低级颜色信息融合。我们通过计算该矩阵的拉普拉斯算子的特征向量将图像分解为多个 soft segments。其次，我们可以将这些特征向量用于广泛的下游任务。对于对象定位 (2a)，我们发现只需取具有最小非零特征值的特征向量的正值位置，并在该区域周围放置一个边界框，即可产生最先进的对象定位性能。对于语义分割 (2b)，我们将特征向量转换为离散片段，为每个片段计算一个特征向量，并将这些片段聚类到整个数据集中。$

给定一张图像，我们首先使用网络 $φ$ 中提取密集特征，并使用这些特征构建语义 affinity 矩阵 $W_{feat}$，然后将其与低级颜色信息融合。我们通过计算该矩阵的拉普拉斯算子的特征向量将图像分解为多个 soft segments。其次，我们可以将这些特征向量用于广泛的下游任务。对于对象定位 (2a)，我们发现只需取具有最小非零特征值的特征向量的正值位置，并在该区域周围放置一个边界框，即可产生最先进的对象定位性能。对于语义分割 (2b)，我们将特征向量转换为离散片段，为每个片段计算一个特征向量，并将这些片段聚类到整个数据集中。

令 $I ∈\mathbb{R}^{3×M ×N}$ 为图像。我们将首先使用神经网络得到密集特征 $f = \phi(I) \in \mathbb{R}^{C \times M/P \times N/P}$, $P$ 为下采样的倍数. 首先计算图像语义 affinity 矩阵:

$$ W _ { \text {feat } } = f f ^ { T } \odot \left( f f ^ { T } > 0 \right) \in \mathbb { R } ^ { \frac { M N } { P ^ { 2 } } \times \frac { M N } { P ^ { 2 } } } $$

为了获得低级细节，我们将它们与传统的颜色级信息融合，这些信息可以看作是网络第 0 层的特征。我们使用 sparse KNN-matting matrix 作为颜色 affinity 矩阵，也可以使用任何传统的相似矩阵。

$$ W = W _ { \text {feat } } + \lambda _ { \mathrm { knn } } W _ { \mathrm { knn } } $$

其中 $λ_{knn}$ 是用户定义的参数，用于权衡语义和颜色一致性。

<aside> 💡 KNN-matting 将图像转换为 HSV 颜色空间，并为每个像素定义一个向量 $ψ(u) = (\cos(c_H), \sin(c_H), c_S, c_V, p_x, p_y) ∈ \mathbb{R}^5$，其中包含两种颜色信息 ( $c_H 、 c_S 、 c_V$ 值）和空间信息（$p_x、p_y$ 值）。然后，他们基于 $ψ$ 从像素最近的邻居构造一个稀疏affinity 矩阵：

$$ W _ { \mathrm { knn } } ( u , v ) = \left\{ \begin{array} { l l } 1 - \| \psi ( u ) - \psi ( v ) \| , & u \in \mathrm { KNN } _ { \psi } ( v ) \\ 0 , & \text { otherwise } \end{array} \right. $$

其中 $u ∈ KNN_ψ (v)$ 是 $v$ 在由 $ψ$ 定义的距离下的 $k$ 个最近邻。

</aside>

给定 $W$ ，我们取其拉普拉斯算子 $L=D ^ { - 1 / 2 } ( D - W ) D ^ { - 1 / 2 }$ 的特征向量将图像分解为 soft segments：$\{y_0, · · · , y_{n−1}\} = eigs(L )$. 由于第一个特征向量 $y_0$ 是对应于 $λ_0 = 0$ 的常数向量，出于我们的目的，我们仅使用 $y>0$。

Untitled

<aside> 💡 Laplace 矩阵:

图神经网络（Graph Neural Networks，GNN）综述

Combinatorial Laplacian: $L = D - A$
Symmetric normalized Laplacian: $L ^ { \text {sys } } = D ^ { - 1 / 2 } L D ^ { - 1 / 2 }$
Random walk normalized Laplacian: $L ^ { r w } = D ^ { - 1 }$

正则化图拉普拉斯矩阵具有实对称半正定的性质。利用这个性质，正则化拉普拉斯矩阵可以分解为 $\mathrm { L } = \mathrm { U } \Lambda \mathrm { U } ^ { T }$.

其中 $\mathbf { U } = \left[ \mathbf { u } _ { 0 } , \mathbf { u } _ { 1 } , \cdots , \mathbf { u } _ { \mathbf { n } - 1 } \right] \in \mathbf { R } ^ { N \times N }$, $U$ 是由 $L$ 的特征向量构成的矩阵， $Λ$ 是对角矩阵，对角线上的值为 $L$ 的特征值。正则化拉普拉斯矩阵的特征向量构成了一组正交基。

</aside>