-
오직 transformer만을 사용한 최초의 completely free of convolution 모델
- 기존의 인코더 블록에만 적용한 방식과는 완전히 다르다 주장
-
기존 transformer 기반 CV모델들은 classification 혹은 detection에만 주로 사용되었기에
구조나 색상, 질감 등의 공간적인 일관성에도 효과가 좋은지 분명하지 않음
-
이미지를 출력하는 몇 안되는 transformer 기반 모델들이 존재하나
하나같이 convolution 기반의 encoder를 사용함
- visual transformer 학습은 무겁고 매우 어렵기로 알려져 있음
- GAN 자체가 학습이 불안정하고 mode collapse가 쉽게 일어남
- 이 두가지를 동시에 해결해야 가능하기에 어렵다고 함
-
이것을 해결하기 위한 방법을 제시
- Model Architecture
- Purely transformers and no convolution
- Memory friendly generator and a patch-level discriminator
- Effiectively scaled up to larger models
- Training Technique
- Data Augmentation
- Multi-task co-training for generator with self-supervised auxiliary loss
- localized initailization