Автор: Даниил Соловьёв Редактура: Кирам Аль-Харба
В этой статье авторы показывают, что диффузионные модели могут обеспечить наилучшее качество генерации изображений. Они достигают этого на безусловном синтезе изображений (unconditional image synthesis): находят наилучшую архитектуру с помощью серии экспериментов. Для условного синтеза изображений (conditional image synthesis) они дополнительно улучшают качество с помощью classifier guidance.
Рисунок 1. Примеры генерации изображений с помощью модели диффузии
За последние несколько лет генеративные модели приобрели способность генерировать человеческий естественный язык, бесконечные высококачественные синтетические изображения и разнообразную музыку, написанную людьми.
На момент выхода статьи GAN'ы (Generative Adversarial Networks) являлись state-of-the-art в генерации изображений по таким метрикам как FID, Inception Score и Precision. Однако GAN’ы тяжело обучать, они [коллапсируют](https://medium.com/@miraytopal/what-is-mode-collapse-in-gans-d3428a7bd9b8#:~:text=Similarly%2C in GANs%2C mode collapse,diversity of the data distribution.) без тщательного подбора гиперпараметров и регуляризации (подробнее об этом можно почитать тут). Более того, GAN'ы захватывают меньше diversity, чем state-of-the-art likelihood-based модели (основанные на правдоподобии). Примеры моделей: первая, вторая, третья.
Вероятностные (likelihood) модели обладают высоким diversity и скейлятся легче, чем GAN'ы, но не достигают того же высокого качества генераций.
Диффузионные модели представляют собой класс моделей, основанных на правдоподобии (likelihood), которые с недавних пор показали способность генерировать качественные изображения. Одновременно с этим они обладают стабильным обучением, не коллапсируют и легко скейлятся.
Однако диффузионные модели все еще уступают GAN’ам на сложных датасетах — LSUN и Imagenet.
Разрыв между моделями диффузии и GAN'ами авторы объясняют двумя факторами:
Авторы стремятся привнести эти преимущества в диффузионные модели, сначала улучшая их архитектуру, а затем разрабатывая схему diversity-fidelity trade-off. Благодаря таким улучшениям авторы достигают state-of-the-art, превосходя GAN'ы по нескольким показателям и наборам данных.
Если верхнеуровнево: диффузия моделирует образец из распределения, обращая вспять процесс постепенного зашумления. В частности процесс семплирования начинается с шума $x_T$ и постепенно создает менее шумные семплы (reverse diffusion, где $p_{\theta}(x_{t-1}|x_t)$ — желаемая модель с параметрами ${\theta}$) $x_{T-1}$, $x_{T-2}$,... до достижения конечного образца $x_0$. Процесс зашумления называется прямым, или forward diffusion ($q(x_t|x_{t-1})$). Каждый временной шаг $t$ соответствует определенному уровню шума, и $x_t$ можно рассматривать как смесь сигнала $x_0$ с некоторым шумом, где отношение сигнал/шум определяется временным шагом $t$.
В оставшейся части статьи авторы предполагают, что шум был получен из diagonal Gaussian distribution (многомерное нормальное распределение с variance-covariance матрицей, где ненулевые значения — только диагональные элементы). Это хорошо работает для изображений и упрощает различные выводы.
Рисунок 2. Иллюстрация прямого и обратного процессов диффузии