FastFormers: Highly Efficient Transformer Models for Natural Language Understanding

논문 정보

배경: NLU(Natural Language Understanding) 응용에서 transformer 기반의 모델이 SOTA(state-of-the-art) 이다.
- 모델이 점점 커지고 다양한 task들에서 좋은 성능을 보이고 있음
문제: 하지만 컴퓨팅 성능 최적화가 필요하다
- 모델의 inference-time 성능을 고려해볼때 비효율적임
FastFormers: Transformer 기반의 모델의 추론 시간 성능을 개선하기 위한 여러가지 방법들을 조합한 것
적용한 주요 요소
- Knowledge distillation
- Structured pruning
- Numerical optimization
개선 지표
- 추론 시간
  - CPU: 9.8x ~ 233.9x 향상
  - GPU: 12.4x 향상
- 컴퓨팅 비용 (Azure F16s_v2)
  - 4,223 USD → 18USD
  - 472만원 → 2만원
- 에너지 소모 (SustaiNLP 2020 가이드)
  - 6.9x ~ 125.8x 향상
(실험 모델)
- BERT and RoBERTa