작성자 : 김승일(모두의연구소 연구소장)
발표일 : 20201130 at DeepLAB 논문반
논문 링크
Translation invariant가 모든 경우에 좋을까? CNN이 아래 몇몇 아주 단순한 task를 풀지 못하더라. 위치 정보를 잊게 만드는게 장땡이 아님.
구현은 아주 심플한데, 원래 입력 이미지에 row, column을 구분할 수 있는 positional encoding 스러운 녀석을 concat해서 넣어주는 것이 CoordConv!