Автор: Булат Бадамшин Редактура: Александр Лекомцев

Введение

Сегментация — одна из самых востребованных и важных задач компьютерного зрения. Обычно выделяют три основных ее вида:

[Рисунок 1. Виды сегментации](https://lh7-us.googleusercontent.com/7UjBk3ZvF7F2tSR-lQN8NXGk-RSqgbzuIHpzRs5W6ayZGHM3as0E_QY9Iuyb3IQkycHdmH1dAIj7dSNE0-4W8yhjo2n7HsZfrY2zgjrZrpk0AJMaJeFpNzjeoB4DiesfJFNkU6gH-dfU7B47DwmqntY)

Рисунок 1. Виды сегментации

Одна из ключевых проблем при получении качественной модели сегментации — трудоемкость разметки. В отличие, например, от детекции, где разметка — ограничивающий прямоугольник, здесь аннотатору нужно выделять полигональную маску, что занимает гораздо больше времени. Но стоит отметить: для сегментации обычно требуется меньше разметки, чем для детекции. Объясняется это тем, что сегментация — попиксельная классификация. Каждая маска содержит большое количество размеченных пикселей, каждый из которых точно относится к нужному классу. А в детекции мы решаем задачу классификации объекта в ограничивающем прямоугольнике. Не все пиксели внутри него относятся к классу целевого объекта.

Рисунок 2. Пример нанесения полигональной маски на объект в инструменте CVAT

Рисунок 2. Пример нанесения полигональной маски на объект в инструменте CVAT

Для решения этой проблемы исследователи искали подходы к сокращению времени разметки или автоматизации ее получения. До недавнего времени были популярны методы упрощенной разметки (weakly supervised): разметка ограничивается только классом объекта на изображении (обычная классификация), какой-либо отметкой на объекте (например, линией) или ограничивающим прямоугольником.

Рисунок 3. Сравнение обычной разметки изображения (a) в виде маски (b) и упрощенной разметки в виде линий (c)

Рисунок 3. Сравнение обычной разметки изображения (a) в виде маски (b) и упрощенной разметки в виде линий (c)

Сегодня самые популярные подходы — подходы, которые вообще не используют разметку. Это self-supervised (SSL) методы ****предобучения визуальных моделей. В статье Emerging Properties in Self-Supervised Vision Transformers авторы акцентировали внимание читателей на семантических свойствах карт внимания трансформерной модели ViT, обученной на данных без разметки с применением контрастивной функции. Да, речь идет о знаменитом подходе DINO. Его мы, кстати, подробно разбирали в нашей статье 😊. Но DINO дает лишь базу в виде предобучения и выявляет потенциал предобученного трансформера в режиме SSL. Чтобы решить задачу сегментации с приемлемым качеством и попасть в лидерборд популярных бенчмарков, нужно дообучать сегментационную голову модели. И здесь уже появляется пространство для творчества и, следовательно, разнообразие подходов.

В этой статье мы рассмотрим самый актуальный и универсальный метод сегментации без разметки, который находится в топах бенчмарков всех видов сегментации — Unsupervised Universal Image Segmentation, или U2Seg.

**Unsupervised Universal Image Segmentation (U2Seg)**

Самые популярные подходы в задачах сегментации без учителя — STEGO для семантической сегментации и CutLER для инстанс сегментации. Авторы U2Seg предложили архитектуру, которая умеет решать задачи как инстанс, так и семантической сегментации, а следовательно - задачу паноптик сегментации. Таким образом, Unsupervised Universal Segmentation model (U2Seg) — это универсальная модель сегментации.

В U2Seg объединяются архитектуры STEGO и CutLER, поэтому давайте для начала их и рассмотрим 🙂.

STEGO

Со STEGO мы знакомились в нашей статье про DINO.

STEGO — метод семантической сегментации без разметки, основанный на обучении сегментационной головы с помощью специальной контрастивной лосс-функции.

В качестве бэкбона для получения векторного представления картинок используют трансформер, предобученный с помощью DINO.