Learning from Noisy Labels with Deep Neural Networks: A Survey
My Motivation
- 쌓여가는 사진 데이터를 활용한 다양한 분류기 시도 중
- 데이터는 많지만 정제된 클린 데이터셋은 많이 없음
- 노이즈 데이터셋을 어떻게 잘 활용해서 모델 성능 개선을 할 수 있을까?
What is noise label?
: 잘못 어노테이션된 레이블들
기존의 데이터에대한 생각
Robust Training에서 달성하고 싶은 목표
: 일부 노이즈한 레이블이 들어와도 노이즈에 강한 학습을 수행하자
Introduction
Preliminaries
- Supervised Learning with Noisy Labels
- 기존의 risk minimization process는 noise-tolerant하지 않음
- DNN이 오염된 레이블을 쉽게 기억할 수 있음
- 학습된적 없는 데이터에대한 일반화가 잘 안될 수 있음
- Taxonomy of Label Noise
- typical noise (independent noise)> 데이터 피쳐가 조건부독립이라 가정
- symmetric noise (or uniform noise)
- asymmetric noise: 특정 한 레이블로 더 많이 mis-label
- pair noise: 완전히 특정 한 레이블로 mis-label
- instance noise (or label-dependent noise)
- 데이터 피쳐가 의존적이라 가정
- 아직 연구가 잘 없음
- Non-deep Learning Approaches
- Data cleaning
- Probabilistic method
- Model-based method
Deep Learning Approaches