(a) Local 이미지만을 보기 때문에 관절 영역에 대해서 Confuse 할 수 있음. (b) Multi-part 컨텍스트가 이러한 모호함을 해결하는데 도움을 주며, (c) 추가적인 반복으로 최종 결과에 수렴하게 함. 따라서 Local 영역에 국한된 Receptive Field 를 네트워크 디자인을 통해 넓힘으로써 정확하게 위치를 찾도록 설계함.
관절 자세 추정을 위한 Convolutional Pose Machines(CPMs)은 Pose Machine 의 장점들을 Convolutional 아키텍쳐의 장점과 결합한다.
CPM은 각 관절의 위치에 대한 2D belief maps 을 반복적으로 생성해내는 CNN의 시퀀스로 구성되어있다. 각 단계에서는 이미지 Feature와 belief 맵이 이전 단계로부터 생성된다.
Belief Map은 CPM이 각 관절간의 관계의 sptial model을 학습할 수 있도록, 각 파트의 위치에 대한 sptial uncertainty를 비모수 encoding하여 표현한다.
표현이 어려움. 즉, Belief map은 각 관절의 위치에 대한 불확실성을 표현한 것으로 생각하면 되며, 이 맵은 각 관절간의 관계가 고려되어서 만들어지게 됨.
우리는 기존의 graphical model 이나 별도의 post-processing 단계가 아닌 중간의 belief map을 통해 직접 동작하고 이미지 의존적인 각 관절간의 관계의 spatial models을 학습한다.
Main Contributions
순차적인 Convolutional 아키텍쳐 구성을 통한 공간 모델(spatial model)의 학습
Graphical Model 방식을 적용하지 않더라도, 구조적인 공간 모델과 Image Feature representation 모두를 학습할 수 있는 아키텍쳐를 설계함
Notation - Y_p : p번째 관절의 픽셀 좌표, Y_p ∈ Z ⊂ R^2, Z는 이미지의 모든 (u,v) 좌표 집합
최종 목적은 이미지에서 P개의 모든 관절에 대한 이미지내 좌표 Y=(Y_1, ..., Y_P)를 예측하는 것임.