요약

2015년도에 나온 DQN을 보면 3개의 convolution layers를 사용하고 있다. 낮은 레이어 개수와 비교적 큰 Kernel size에 따라 정보(특히, 게임에서 총알과 같은 작은 물체)가 많이 무뎌질 것이라 판단했다. Concatenated skip connection를 사용해 네트워크를 구성해보았고 그 결과 다수의 환경에서 비슷한 학습시간 대비 더 높은 성능을 보였다. 추가적으로 학습 결과에 대한 직관적인 이해를 도와줄 수 있는 여러 디버깅 요소를 소개한다.

과정

네트워크

baseline 네트워크와 새롭게 제시하는 네트워크를 비교

기존의 DQN network


새로운 DQN network


비교 분석

Open AI의 Atari 게임들을 통해 결과 비교

DQN