Learning a Neural Solver for Multiple Object Tracking

Key Concept :

Message Passing Network 를 활용하여 MOT 작업을 formulation한 논문. 이에 따라 전체 framework 가 미분가능하게 되어 딥러닝 방식의 장점 (generalization to dataset, parallelization for fast execution) 을 달성할 수 있다.

Terminologies :

Research Background :

Graph 구조는 MOT task 를 모델링하기에 적합한 구조이다. 하지만 이 구조는 deep learning 에 적용하기에 trivial 하지 않은 문제이기 때문에, 기존 방식들 에서 dl 은 이미지의 feature 를 뽑아내서 제공하는 역할에 그쳤다. 본 논문에서는 이미지의 feature 만 뽑는것이 아니라, data association 또한 dl network 로 설계하여 dl-based MOT 구조를 제안하였다.

Previous Works :

Graph-based MOT 는 두가지 방향으로 연구가 진행되어 왔다.

  1. Graph formulation 복잡한 그래프 최적화 framework 를 설계하는 방법. 주로 handcrafted cost 를 사용하여 최적화한다.
  2. Learning better cost deep learning 을 활용하여 그래프 최적화를 시도함. 물체들간의 pairwise 관계를 모델링 하였지만 고차원 정보를 설명하지는 못함.

Proposed Method :

Tracking as a Graph Problem :

Tracking-by-detection scheme 에서 Detection 결과는 주어진다.

Object detections set : $\mathcal{O}=\{ o_1, ..., o_n \}$ where $o_i=\{ a_i, p_i, t_i \}$ ( $a_i$ : raw pixels of bb, $p_i$ : 2D image coordinates, $t_i$ : timestamp )

이 때 물체 $i$ 의 trajectory 는 $T_i=\{o_{i_1}, ..., o_{i_{n_i}} \}$ 로 쓸 수 있다. (물체 $i$ 가 $n_i$ 번 검출되었을 때)

MOT의 목적은 trajectory 들의 set 을 찾는 것이다 : $\mathcal{T}_* = \{ T_1, ..., T_m \}$