<Original Paper Link>
InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets
<aside> 💡 InfoGAN은 기존의 GAN에서 정보이론적인 확장을 추가하여 비지도 방식으로 disentangled representation (잠재 공간에서의 벡터 이동의 의미를 파악)을 학습하도록 한다.
이는 잠재 벡터의 변수와 실제 생성 output으로 관측할 수 있는 이미지 간의 상호정보량을 최대화 하는 방식으로 작동한다. 상호 정보량을 정확히 추정하는 것은 사후(posterior) 확률 때문에 쉽지 않으므로, 보조 분포를 활용해 근사한 뒤, 하한선을 정해 이를 높이는 방식으로 한다.
이를 통해 MNIST 데이터에서 숫자 클래스 뿐만 아니라, 회전, 글씨 두께 등에 대한 변환 벡터를 찾아낼 수 있고, SVHN, CelebA 데이터셋에서도 잠재 공간에 대한 벡터를 해석할 수 있는 형태로 변환 가능한 것을 보여, 현재 지도 학습 방식 대비 경쟁력 있음을 보임.
</aside>
<aside> 💡 .
이번 논문에서는 GAN 네트워크에 약간의 수정을 통해 학습목표에 해석 가능하고 의미있는 표현을 학습하도록 하는 방법을 보여줌. GAN의 잠재 벡터의 일부분과 이로 인해 출력된 결과물의 상호 정보량을 최대화.
→ 상호 정보량을 생성 모델에 포함하는 것이 disentagled representation에 있어 매우 의미있음을 제안.