https://s3-us-west-2.amazonaws.com/secure.notion-static.com/4b7f18d8-319d-4d10-83e2-17779cb9b9d1/Untitled.png

들어가기에 앞서


Deepmind에서 NIPS2019에 제출한 이 논문의 문제의식을 이해하려면 다음 내용을 이해하고 계시면 도움이 됩니다.

몰라도 이 논문을 이해하시는데는 큰 지장은 없으실 겁니다.

Lifelong Language Learning 이란?


그냥 Continual Learning이라고 해도 되는데, 좀더 멋진 제목을 붙였다. 그러나 그 제목에는 이 연구의 지향점이 드러나게 마련이다. [사람이 언어를 배우듯] 이라는 뉘앙스를 행간에 넣고 싶었던 모양이다.

딥러닝에서 Continual Learning이 잘 안되는 이유가 무엇인가? training distribution shift 때문이다. 딥러닝의 기본 가정인 i.i.d (Independent and identically distributed)가 무너지는 상황, 즉 시간이 지남에 따라 학습데이터의 분포가 달라지면서, 예전 분포에 따라 학습한 모델이 Catastrophic Forgetting을 경험하는 상황 때문이다. 딥러닝에서 학습데이터의 분포는 불변의 전제 같은 것이다. 그러나 세상에 그런게 어디있겠는가? 맥락(context)은 계속 변한다. 따라서 관측되는 데이터의 distribution도 계속 변한다. NLP분야야 말로 맥락의 변화가 가장 드라마틱하게 발생하는 분야 아니겠는가?

Sprechmann et al.[2018]은 Deepmind에서 나름 공들여 쓴 논문이다. 사실 본 논문의 핵심 아이디어는 Sprechmann et al.[2018]에 소개된 MbPA라는 모델에 다 들어있고, 이후 나온 BERT를 가지고 그 당시 할 수 없었던 개선을 더하여 MbPA++을 만들었다는게 이 논문의 내용 전부다.

Sprechmann et al.[2018]에서는 Continual Learning을 위해 2가지가 필요하다고 한다.

  1. (Episodic) Memory Module (과거의 기억)

  2. Local Adaptation (보관된 과거의 기억들 중 현재 상황과 가장 유사한 것들 찾아내어 현재상황 해석에 활용하기)