우리는 이미지 내에서 여러 사람의 2D 자세를 검출하는 효율적인 방법을 제안한다. 이 방법은 이미지 내 사람들의 관절 간의 연관성을 학습하기 위한 비모수 representation 방법으로, Part Affinity Fields (PAFs) 라 부른다.
아키텍쳐는 global context를 encode하며, bottom-up parsing 단계를 통해 높은 정확도를 유지하면서 사람 수에 상관없이 실시간 성능을 달성하였다. 이 아키텍쳐는 관절의 위치와 동시에 두 관절 간의 연결을 함께 학습되도록 설계되었다.
이미지 내 여러 사람의 자세를 추론하는 것은 어려운 문제임.
이 논문에서는 SOTA 성능의 multi-person pose estimation을 위한 효과적인 방법을 제안한다.
먼저 이미지 도메인에서의 관절의 위치와 방향을 나타내는 2D vector의 집합인, Part Affinity Field(PAFs)라 부르는 association score를 bottom-up representation 하였다.
우리는 동시에 이러한 Detection과 Association 을 위한 bottom-up representation의 추론이 greedy parse가 적은 연산량으로 좋은 성능을 달성 할 수 있도록 global ontext를 충분히 잘 인코딩 한다는 것을 증명한다.
Fig2. overall pipeline of method
이 시스템은 입력으로 컬러 이미지(w x h 사이즈)를 받고, 출력으로 이미지 내 사람마다의 관절 keypoint의 2D 위치(Fig. 2e)를 출력한다. 먼저, Feed-forward 네트워크는 관절 위치에 대한 2D confidence maps **S(Fig. 2b)**와 관절 사이의 연결 각도를 encode한 part affinities(관절 연결?인접?)에 대한 2D 벡터의 집합 **L(Fig. 2c)**을 동시에 추정한다.
S=(S_1, S_2, ..., S_J) : S는 J개의 confidence map으로 구성되며, 각각 w x h 크기이고, 1~J는 J개의 관절 각각을 의미한다.