VAE는 생성형 모델 중 Autoregressive보다 빨리 수렴하면서도 GAN 계열보다 안정적으로 학습되는 장점을 가집니다. 변분추론(variational inference) 논리에 따라 입력데이터의 차원(D)보다 훨씬 적은 차원(K)으로 입력데이터의 추상표현을 담은 latent variable을 얻을 수 있다는 장점도 있습니다.

그러나 VAE는 GAN에 비해 생성된 이미지의 디테일이 뚜렷하지 않다는 단점이 있었습니다. 그래서 고화질의 이미지 생성 연구는 주로 GAN 방식으로 많이 진행되어 왔습니다. 그러나 VAE 계열의 연구도 계속되어 왔는데, 오늘 논문에서 소개하는 VDVAE(Very Deep VAE)는 VAE의 encoder, decoder의 레이어를 깊이 쌓았을 때 고화질 이미지 생성에도 뛰어는 성능을 보여준다는 것을 확인해 줍니다.

VDVAE를 이용해 생성한 FFHQ-256 기반의 이미지(temperature=0.6). 본문에서는 체리피킹하지 않았음을 강조하고 있음

VDVAE를 이용해 생성한 FFHQ-256 기반의 이미지(temperature=0.6). 본문에서는 체리피킹하지 않았음을 강조하고 있음

논문 첫페이지에 소개한 샘플이미지를 한번 더 보실까요? 아래 이미지를 보면 VAE로도 GAN에 뒤지지 않는 고화질(256X256)의 이미지를 사실적으로 생성하고 있음을 알수 있습니다.

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/358af927-ceab-4139-b44b-aab44921f5eb/Untitled.png

VAE를 개선하여 고화질의 이미지를 생성하려는 시도는 대략 아래와 같은 방식들이 사용되어 왔습니다.

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/32669d3c-9e91-4286-85fb-8034d764a207/Untitled.png

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/0673acad-69ac-48ef-9ad9-bfb3b9fd6fdc/Untitled.png