Message Passing Network 를 활용하여 MOT 작업을 formulation한 논문. 이에 따라 전체 framework 가 미분가능하게 되어 딥러닝 방식의 장점 (generalization to dataset, parallelization for fast execution) 을 달성할 수 있다.
Graph 구조는 MOT task 를 모델링하기에 적합한 구조이다. 하지만 이 구조는 deep learning 에 적용하기에 trivial 하지 않은 문제이기 때문에, 기존 방식들 에서 dl 은 이미지의 feature 를 뽑아내서 제공하는 역할에 그쳤다. 본 논문에서는 이미지의 feature 만 뽑는것이 아니라, data association 또한 dl network 로 설계하여 dl-based MOT 구조를 제안하였다.
Graph-based MOT 는 두가지 방향으로 연구가 진행되어 왔다.
Tracking-by-detection scheme 에서 Detection 결과는 주어진다.
Object detections set : $\mathcal{O}=\{ o_1, ..., o_n \}$ where $o_i=\{ a_i, p_i, t_i \}$ ( $a_i$ : raw pixels of bb, $p_i$ : 2D image coordinates, $t_i$ : timestamp )
이 때 물체 $i$ 의 trajectory 는 $T_i=\{o_{i_1}, ..., o_{i_{n_i}} \}$ 로 쓸 수 있다. (물체 $i$ 가 $n_i$ 번 검출되었을 때)
MOT의 목적은 trajectory 들의 set 을 찾는 것이다 : $\mathcal{T}_* = \{ T_1, ..., T_m \}$