Abstract

우리는 이미지 내에서 여러 사람의 2D 자세를 검출하는 효율적인 방법을 제안한다. 이 방법은 이미지 내 사람들의 관절 간의 연관성을 학습하기 위한 비모수 representation 방법으로, Part Affinity Fields (PAFs) 라 부른다.

아키텍쳐는 global context를 encode하며, bottom-up parsing 단계를 통해 높은 정확도를 유지하면서 사람 수에 상관없이 실시간 성능을 달성하였다. 이 아키텍쳐는 관절의 위치와 동시에 두 관절 간의 연결을 함께 학습되도록 설계되었다.

1. Introduction

이미지 내 여러 사람의 자세를 추론하는 것은 어려운 문제임.

  1. 각 이미지에는 알 수 없는 다양한 크기의 다양한 자세를 지닌 사람이 등장한다.
  2. 사람들은 접촉, 폐색(occulusion), 복잡한 관절 등 복잡한 공간적 간섭을 이루고 있다.
  3. 실시간 성능을 위해서, 일반적으로 사람의 수에 처리시간 복잡도가 증가하는 경향이 있다.

이 논문에서는 SOTA 성능의 multi-person pose estimation을 위한 효과적인 방법을 제안한다.

먼저 이미지 도메인에서의 관절의 위치와 방향을 나타내는 2D vector의 집합인, Part Affinity Field(PAFs)라 부르는 association score를 bottom-up representation 하였다.

우리는 동시에 이러한 Detection과 Association 을 위한 bottom-up representation의 추론이 greedy parse가 적은 연산량으로 좋은 성능을 달성 할 수 있도록 global ontext를 충분히 잘 인코딩 한다는 것을 증명한다.

2. Method

Fig2. overall pipeline of method

Fig2. overall pipeline of method

이 시스템은 입력으로 컬러 이미지(w x h 사이즈)를 받고, 출력으로 이미지 내 사람마다의 관절 keypoint의 2D 위치(Fig. 2e)를 출력한다. 먼저, Feed-forward 네트워크는 관절 위치에 대한 2D confidence maps **S(Fig. 2b)**와 관절 사이의 연결 각도를 encode한 part affinities(관절 연결?인접?)에 대한 2D 벡터의 집합 **L(Fig. 2c)**을 동시에 추정한다.

S=(S_1, S_2, ..., S_J) : S는 J개의 confidence map으로 구성되며, 각각 w x h 크기이고, 1~J는 J개의 관절 각각을 의미한다.