논문 링크

Abstract

Domain generatlization은 딥러닝에서 상당히 중요한 문제입니다. 한 source에서 나오는 데이터가 있고 그 데이터로 학습을 시켰는데 다른 데이터셋인 두 번째 source에서 inference가 잘 안되면 참 난감하죠.

Yarin Gal의 본 연구에서는 그러한 domain adaptation을 잘 해결하려는 수학적인 방법을 제시했습니다. 구체적으로는, Domain들의 집합 $D$가 있을 때 이 도메인들 $d,d'\in D$에서 불변인(invariant) 어떤 표현(representation) $z$를 원본 데이터 $x$로부터 추출하려는 것을 목적으로 삼았습니다.

Introduction, Problem formulation

이러한 문제를 풀기 위해, 먼저 graphical model로 상황을 스케치해봅시다. 우리는 어떤 데이터 $x$를 가지고 있고, 그에 대한 정답 $y$도 가지고 있으면서, 어떤 도메인에서 얻은 데이터인지에 대한 정보인 $d$도 가지고 있습니다. 이제 우리가 원하는 어떤 representation을 $z$라고 합시다. 그럼 다음과 같은 graphical model을 만들 수 있을 것입니다.

본격적으로 시작하기에 앞서, 간단한 베이즈 정리를 복습해 봅시다.

$$ p(d,x,y,z) = p(d)p(y)p(x|y,d)p(z|x) $$

가 성립합니다.

자 이제 상식 선에서 관찰을 해 봅시다.

  1. $p(x,y|d)$는 domain $d$에 따라 변하는 분포입니다. 왜냐하면 이미지를 어떤 도메인에서 얻는지에 따라 $p(x,y|d)$와 $p(x',y|d')$이 달라지기 때문이겠죠?
  2. 역시나, $p(x|d)$도 domain에 따라 변하는 distribution이 되겠습니다.
  3. 하지만, $p(y|d)$는 변하지 않습니다. 이것도 상식적으로 당연합니다. 같은 objects를 다른 source로 찍었다면, 정답은 바뀌어서는 안되기 때문입니다. 다른 말로 하면, true label은 modality에 의존하지 않습니다.

이제 $p(z|x)$라는 분포로부터 $z$를 어떻게 뽑아낼지를 생각해 봅시다.

Theoretical Approach

먼저 정의를 하고 갑시다.