1. Introduction

기존에 제안된 ELMo / GPT / BERT / XLM / XLNET 등이 놀라운 성과를 보였지만, 모델의 어떤 측면이 가장 기여했는가에 대해서는 Challenging 하였음
BERT를 통해 하이퍼파라미터 튜닝 및 Training data size 를 변경하며 여러 시도를 해본 결과, BERT가 덜 학습(Significantly undertrained) 되어 있으며 성능을 개선할 수 있었음
이 방법론은 “RoBERTa” 로 명명하며, 기존 BERT의 방법론을 뛰어넘는 결과를 보임

How?

RoBERTa는 간단한(?) 다음 방법론을 이용해 모델을 개선함
1. 모델(Pre-trained model)을 더 오래 학습, 큰 배치 사이즈, 더 많은 Data를 활용함
2. NSP(Next Sentence Prediction) 방법론을 활용하지 않음
3. Pre-training 단계에서 더 긴 문장을 활용
4. Pre-training 단계에서 Dynamically changing 마스킹을 활용함
  - 여기에 training size effect 를 비교해보고자 large dataset을 새로 수집함
성과
1. Pre-training 단계에서 BERT 학습 전략 수정을 통해 downstream task 성능을 높임
  - BERT design choice & 학습 전략 변경 → 새로운 전략이 성과가 좋았음
2. Pre-training 단계에서 더 많은 데이터를 활용해서 downstream task 성능을 향상 시킴
3. MLM(masked language model pretraining) 에서 성능 개선을 포인트를 발견했고, 최근 제안된 방법들과 비교해서도 우수한 성능을 보임