(a) Local 이미지만을 보기 때문에 관절 영역에 대해서 Confuse 할 수 있음. (b) Multi-part 컨텍스트가 이러한 모호함을 해결하는데 도움을 주며, (c) 추가적인 반복으로 최종 결과에 수렴하게 함.
따라서 Local 영역에 국한된 Receptive Field 를 네트워크 디자인을 통해 넓힘으로써 정확하게 위치를 찾도록 설계함.

(a) Local 이미지만을 보기 때문에 관절 영역에 대해서 Confuse 할 수 있음. (b) Multi-part 컨텍스트가 이러한 모호함을 해결하는데 도움을 주며, (c) 추가적인 반복으로 최종 결과에 수렴하게 함. 따라서 Local 영역에 국한된 Receptive Field 를 네트워크 디자인을 통해 넓힘으로써 정확하게 위치를 찾도록 설계함.

1. Introduction

관절 자세 추정을 위한 Convolutional Pose Machines(CPMs)은 Pose Machine 의 장점들을 Convolutional 아키텍쳐의 장점과 결합한다.

CPM은 각 관절의 위치에 대한 2D belief maps 을 반복적으로 생성해내는 CNN의 시퀀스로 구성되어있다. 각 단계에서는 이미지 Feature와 belief 맵이 이전 단계로부터 생성된다.

Belief Map은 CPM이 각 관절간의 관계의 sptial model을 학습할 수 있도록, 각 파트의 위치에 대한 sptial uncertainty를 비모수 encoding하여 표현한다.

표현이 어려움. 즉, Belief map은 각 관절의 위치에 대한 불확실성을 표현한 것으로 생각하면 되며, 이 맵은 각 관절간의 관계가 고려되어서 만들어지게 됨.

우리는 기존의 graphical model 이나 별도의 post-processing 단계가 아닌 중간의 belief map을 통해 직접 동작하고 이미지 의존적인 각 관절간의 관계의 spatial models을 학습한다.

Main Contributions

  1. 순차적인 Convolutional 아키텍쳐 구성을 통한 공간 모델(spatial model)의 학습

  2. Graphical Model 방식을 적용하지 않더라도, 구조적인 공간 모델과 Image Feature representation 모두를 학습할 수 있는 아키텍쳐를 설계함

3. Method

3.1. Pose Machines

Notation - Y_p : p번째 관절의 픽셀 좌표, Y_p ∈ Z ⊂ R^2, Z는 이미지의 모든 (u,v) 좌표 집합

최종 목적은 이미지에서 P개의 모든 관절에 대한 이미지내 좌표 Y=(Y_1, ..., Y_P)를 예측하는 것임.