FastFormers: Highly Efficient Transformer Models for Natural Language Understanding
논문 정보
태그
Transformer
-base model
Optimization
NLU
(Natural Language Understanding)
Abstract (초록)
- 배경: NLU(Natural Language Understanding) 응용에서 transformer 기반의 모델이 SOTA(state-of-the-art) 이다.
- 모델이 점점 커지고 다양한 task들에서 좋은 성능을 보이고 있음
- 문제: 하지만 컴퓨팅 성능 최적화가 필요하다
- 모델의 inference-time 성능을 고려해볼때 비효율적임
- FastFormers: Transformer 기반의 모델의 추론 시간 성능을 개선하기 위한 여러가지 방법들을 조합한 것
- 적용한 주요 요소
- Knowledge distillation
- Structured pruning
- Numerical optimization
- 개선 지표
- 추론 시간
- CPU: 9.8x ~ 233.9x 향상
- GPU: 12.4x 향상
- 컴퓨팅 비용 (Azure F16s_v2)
- 4,223 USD → 18USD
- 472만원 → 2만원
- 에너지 소모 (SustaiNLP 2020 가이드)
- (실험 모델)
1. Introduction