An Intriguing failing of convolutional neural networks and the CoordConv solution | Notion

작성자 : 김승일(모두의연구소 연구소장)

발표일 : 20201130 at DeepLAB 논문반

학습자료

논문 링크

논문 요약

아이디어

Translation invariant가 모든 경우에 좋을까? CNN이 아래 몇몇 아주 단순한 task를 풀지 못하더라. 위치 정보를 잊게 만드는게 장땡이 아님.
- Supervised Coordinate Classification : 입력으로 좌표를 넣어주고, deconv layer 통과해서 해당 위치에 점찍어주기
- Supervised Rendering : 입력으로 좌표를 넣어주고, 해당 좌표를 center로 네모 그려주기
- Unsupervised Density Learning : 임의의 latent variable을 입력으로 주고 나온 파랑/빨강 원/사각형이 비슷한 위치만 나오더라.. (mode collapse)

CoordConv Layer

Method

구현은 아주 심플한데, 원래 입력 이미지에 row, column을 구분할 수 있는 positional encoding 스러운 녀석을 concat해서 넣어주는 것이 CoordConv!