요약

2015년도에 나온 DQN을 보면 3개의 convolution layers를 사용하고 있다. 낮은 레이어 개수와 비교적 큰 Kernel size에 따라 정보(특히, 게임에서 총알과 같은 작은 물체)가 많이 무뎌질 것이라 판단했다. Concatenated skip connection를 사용해 네트워크를 구성해보았고 그 결과 다수의 환경에서 비슷한 학습시간 대비 더 높은 성능을 보였다. 추가적으로 학습 결과에 대한 직관적인 이해를 도와줄 수 있는 여러 디버깅 요소를 소개한다.

과정

네트워크

baseline 네트워크와 새롭게 제시하는 네트워크를 비교

기존의 DQN network

새로운 DQN network

첫 번째와 네 번째 conv layers를 제외한 나머지는 same padding
Concatenated skip connection사용 이는 깊어진 CNN 구조에 의해 상실될 수 있는 작은 물체들(예를들면, 총알, 공)을 잡아내기 위함
Concatenate에 의해 늘어난 파라미터 수를 줄여주기 위해 마지막 레이어에 fully connected layer가 아닌 global average pooling을 이용해 fully convolutional network를 구현 기존 네트워크의 파라미터 수: 211620, 제시된 네트워크의 파라미터 수: 138,020

비교 분석

Open AI의 Atari 게임들을 통해 결과 비교

Breakout
SpaceInvaders
Pong
Enduro
Atlantis
BeamRider