Big Transfer (BiT): General Visual Representation Learning

발표일 : 20201019 at DeepLAB 논문반

Paper : https://arxiv.org/abs/1912.11370

Motivation

해당 Recipe을 "Big Transfer" 라고 부름

Transfer learning (TL) is a research problem in machine learning (ML) that focuses on storing knowledge gained while solving one problem and applying it to a different but related problem.

본 논문에서는 복잡한 학습 기법이나 새로운 패러다임을 제안하는 것은 아니고, 예전 부터 흔히 사용되었던 Transfer Learning에 관련된 내용을 좀 더 자세히 살펴보고, 어떻게 높은 성능을 낼 수 있는지에 대해서 설명과 이에 대한 Transfer 관련 Recipe을 제안.

여기서 제안된 Recipe과 아주 간단한 Heuristic이 들어간 Transferring 기법만 적용해서 20개의 Dataset에 대해서 SOTA 수준의 성능을 달성

기존 SOTA 기법들의 문제점들

복잡하고 긴 Tranining 과정이 필요하며, 더욱이 특정 Target Domain에 맞춘 Dataset이 어느정도 갖춰야하는 문제
수고스러운 Hyperparameter Tuning

반대로 Big Transfer의 경우에는 위의 과정이 없이 SOTA에 필적한 성능을 낼 수 있다고 이야기한다.

본 논문에서는 효과적인 Transfer를 만들기 위한 필수 구성요소들 Dataset의 Scale, Model Architecture, Tranining Hyperparameter 가 어떻게 Transfer 성능과 연관되는지에 대한 empirical 한 Study를 진행

Big Transfer

Transfer를 크게 두 개의 형태로 Component를 나눠서 생각한다.

Upstream component : Pre-training에서 고려되어야 하는 것들
Dowstream component : Fine-tuning에 고려되어야 하는 것들