Abstract

FaceShifter는 high fidelity(충실도)와 occlusion한 2-stage face swap framework이다. 기존 방법들은 target image로부터 제한된 정보로만 동작하는 단점이 있다. FaceShifter는 대상 속성(target attributes)에 철저하게 적응하도록 활용하고 통합하여 high-fidelity한 변환된 얼굴을 생성한다. 저자는 다중 레벨 대상 얼굴 속성을 추출하기 위한 새로운 속성 인코더(attributes encoder)를 제안한다. 그리고 얼굴 합성을 위해 정체성(identity)과 속성(attributes)을 적응적으로 통합하기 위해 AAD(Adaptive Attentional Denormalization) layer를 이용한 Generator를 제안한다. Challenging facial occlusions을 해결하기 위해 2-stage로 구성된 HEAR-Net(Heuristic Error Acknowledging Refinement Network)를 제안한다. Manual annotation 없이 self-supervised 방식으로 anomaly regions을 복구하도록 학습되었다. Wild face들에 대한 광범위한 실험은 타 SOTA 방법들과 비교하여 FaceShifter가 더 지각적으로 매력적이고 정체성을 유지함을 보인다.


1. Introduction

Face swapping은 target image의 attributes(머리 자세(head pose), 얼굴 표정, 빛, 배경)를 보존하면서, target image의 identity를 source image 속 사람의 identity로 대체하는 작업이다. 쉽게 말해 target image의 얼굴을 source image의 사람 얼굴로 바꾸는 작업이다. Face swapping은 movie comparison, computer game, privacy protection 분야에서 잠재적 활용성이 높아 각광받고 있다.

Face swapping의 어려운 점은 두 이미지에서 identity와 attributes를 어떻게 추출하고 적응적으로 재조합 할것인가 이다. 초기 replacement-based works은 간단하게 안쪽 얼굴영역의 pixel만 대체했다. 그래서 자세와 원근법의 변화에 민감하다. 3D-based works은 자세와 원근법 차이를 다루기 위해 3D 모델을 사용한다. 하지만 3D 얼굴 구조의 정확성과 강건성이 모두 만족스럽지 못하다. 최근 GAN-based works는 인상적인 좋은결과를 보여준다. 그러나 realistic 하고 high-fidelity한 생성은 여전히 challenging 하다.

본 논문은 face swapping의 fidelity를 향상시키는데 집중했다. 더 지각적으로 매력적(perceptually appealing)인 결과를 만들기 위해 생성된 swapped face는 target face의 자세와 표정을 공유하고, 불일치 없이 균일하게 target image에 fitting해야 한다. Swapped face의 rendering은 빛의 방향, 강도, 색깔에 충실해야 한다. 그리고 swapped face의 pixel resolution은 target image resolution과 일치해야 한다. 이는 간단한 alpha와 Poisson blending으로 해결될 수 없다. Swapped face의 생성할 때 target image attributes의 철저하고 적응적인 통합은 target image의 attributes(scene lighting, image resolution)는 realistic한 swapped face를 만드는데 도움이 될 수 있다.

그러나 기존 FS 방법은 이런 통합의 필요를 무시하거나 철저하고 적응적인 방법으로 수행하는 능력이 부족했다. 특별히, 많은 이전 방법들은 swapped face를 생성하기 위해 target image로 부터 오직 자세와 표정 가이드만 사용하고 target face의 마스크를 이용하여 blend 한다. 이 과정은 artifacts를 야기하기 쉽다. Swapped face를 생성할 때, 자세와 표정 뿐만 아니라, target image에 대하여 지식을 거의 활용하지 못한다. 이는 scene lighting이나 image resolution 같은 target attributes를 거의 존중할 수 없다. 그래서 이 방법들은 source image 얼굴의 정체성을 보존하지 못한다. 아래 그림은 전형적인 실패 사례 이다.

Untitled

위 그림은 FaceForensics++ dataset에 대한 이전 방법들의 실패 사례 이다. FaceSwap 방법은 inner face region을 생성한 후 target face에 섞는 하는 방법이다. 이러한 전략은 artifacts가 생성되기 쉽다.

  1. 코 부분에 빛의 결함(1행 3열)
  2. Source identity의 얼굴 모양을 보존하는데 실패(2행 3열)
  3. Image resolution 불일치(3행 3열)

반면 FaceShifter는 이러한 문제가 없다.

Target attributes의 철저하고 적응적인 통합하는 high-fidelity FS를 위해 GAN-based 네트웍인 AEI-NET(Adaptive Embedding Integration Network)를 디자인했다. RSGAN, IPGAN은 target attributes를 single vector로 압축한다. 이와 달리 본 모델은

  1. multi-level attributes encoder로 다양한 공간 해상도에서 target attributes를 추출한다.
  2. 어디서 attributes나 identity embedding을 통합할지 적응적으로 학습하기 위한 AAD(Adaptive Attentional Denormalization) Generator를 설계했대.

이런 적응적 통합은 single level 통합(RSGAN, FSNet, IPGAN)에 비해 상당한 성능 향상을 가져온다. 이 두 향상으로 제안하는 AEI-Net은 위 그림에서 보는것과 같이 불일치, 빛, 얼굴 모양 문제를 해결할 수 있다.