여러 블로그 자료들을 참고하여 공부한 내용입니다.
사람의 pose를 추정하는 문제에 대한 연구입니다. 이미지 내에서 사람의 관절위치를 추정합니다. Top-down 방식과 Bottom-up 방식이 존재합니다.
Top-down
영상에서 사람을 먼저 detection하고 bouding box내에서 pose를 추정하는 방식입니다. detection과 crop과정이 필요합니다. bottiom-up 방식보다는 정확도가 높지만, 속도는 느립니다.
Botton-up
영상에서 사람의 key point를 모두 추정하고, key point들간의 상관관계를 분석하여 pose를 추정하는 방식입니다. top-down 방식보다 속도가 빠르지만, 정확도는 낮은 편입니다.
Top-down 방식으로 human pose estimation에 딥러닝을 최초로 적용한 방법입니다.
input image에 대해서 CNN 을 이용하여 사람 영역의 bouding box 위치를 추정하고, box 내에서 각 관절의 위치를 CNN 기반의 regression 방식으로 추정합니다.
첫번째 regressor 를 이용하여 관절 위치를 추정한 후, 추정 오차를 보정하는 두 번째 regression network 을 순차적으로 연결합니다. 그리고, 두 번째 regressor 는 첫 번째 regressor 가 추정한 관절 위치 주변에 대해서만 fine tuning 하도록 제한하였습니다.. 이런 방식으로 multi-regressor 를 순차적으로 연결시켜 나갑니다.
