TransGAN: Two Transformers Can Make One Strong GAN

1. Abstract

현재 Computer Vision Task에서 transformer가 좋은 성능으로 많은 관심을 받고 있으나 classification이나 detection에만 한정된 경우가 많음
Vision에서 어렵기로 유명한 GAN에서도 이것을 적용해보고자 하는 의지를 보임
기존 ConvNet 기반 GAN에 견줄수 있는 높은 성능을 보여 transformer의 가능성을 보임

오직 transformer만을 사용한 최초의 completely free of convolution 모델
- 기존의 인코더 블록에만 적용한 방식과는 완전히 다르다 주장
기존 transformer 기반 CV모델들은 classification 혹은 detection에만 주로 사용되었기에 구조나 색상, 질감 등의 공간적인 일관성에도 효과가 좋은지 분명하지 않음
이미지를 출력하는 몇 안되는 transformer 기반 모델들이 존재하나 하나같이 convolution 기반의 encoder를 사용함
- visual transformer 학습은 무겁고 매우 어렵기로 알려져 있음
- GAN 자체가 학습이 불안정하고 mode collapse가 쉽게 일어남
- 이 두가지를 동시에 해결해야 가능하기에 어렵다고 함
이것을 해결하기 위한 방법을 제시
- Model Architecture
  - Purely transformers and no convolution
  - Memory friendly generator and a patch-level discriminator
  - Effiectively scaled up to larger models
- Training Technique
  - Data Augmentation
  - Multi-task co-training for generator with self-supervised auxiliary loss
  - localized initailization

A Journey Towards GAN with Pure Transformers
- GAN은 Generator 와 Discriminator 로 구성되고 이 두가지를 transformer 구조로 변경하는 것으로 시작
- 둘다 메모리 효율적인 구조로 대체하여 vanilla TransGAN을 구성
- 이후 약점을 보완할 테크닉들을 하나씩 도입하여 deeper / wider model을 만들고 높은 퀄리티의 이미지를 생성함

Transformer Encoder as Basic Block
- Image Transformer (Vaswani et al., 2017) 구조를 채용
- 인코더는 multy-head self-attention 과 feed-forward with GELU 로 구성됨
- layer normalization을 양 파트 앞에 적용하고 residual connection 을 사용
Memory Frendly Generator
- 이미지는 작은 이미지도 픽셀단위 시퀸스로 변화하면 매우 커질수 있어 self-attention에서 매우 큰 비용이 발생한다
- PGGAN에서 영감읋 받아 점진적으로 증가하며 해상도가 높아질수록 Embedding 사이즈를 줄이는 방식을 사용
- multiple stages로 구성되며 매 stage마다 목표 해상도가 될 때까지 두배씩 커짐
  - 매 stage에는 encoder block 이 수회 반복됨
- noise input을 바로 사용하지않고 MLP를 통과 후 H x W x C 크기를 가진 vector로 변경 후 learnable 한 positinal encoding 을 추가
- upsampling을 위해 매 스테이지 뒤에 pixelshuffle 모듈을 사용
  - 우선 1D로 된 sequence를 2D로 변경 후 pixelshuffle를 적용해 2배로 upsample을 하면서 dimension 을 1/4로 줄인 후 다시 1D sequence로 변화시킴 (sequence가 변하지 않음)
  - 최종적으로 목표 해상도에 도달했을때 channel을 3으로 조정
  - 이방식으로 memory and computation explosion을 완화함