2015년도에 나온 DQN을 보면 3개의 convolution layers를 사용하고 있다. 낮은 레이어 개수와 비교적 큰 Kernel size에 따라 정보(특히, 게임에서 총알과 같은 작은 물체)가 많이 무뎌질 것이라 판단했다. Concatenated skip connection를 사용해 네트워크를 구성해보았고 그 결과 다수의 환경에서 비슷한 학습시간 대비 더 높은 성능을 보였다. 추가적으로 학습 결과에 대한 직관적인 이해를 도와줄 수 있는 여러 디버깅 요소를 소개한다.
baseline 네트워크와 새롭게 제시하는 네트워크를 비교
Open AI의 Atari 게임들을 통해 결과 비교
Breakout
SpaceInvaders
Pong
Enduro
Atlantis
BeamRider