<이미지 출처: Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning>
우연한 기회로, “**Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning”**의 제목을 가진 논문을 읽게 되었습니다.
논문의 핵심 요지는 “현재 머신러닝 모델이 학습할 수 있는 데이터의 증가 속도가, 공개되어 있는 데이터의 증가 속도보다 빠르다” 입니다.
즉, ‘모델의 학습 데이터 소비 속도 > 공개 데이터의 생성 속도’로 정리할 수 있습니다. 결과적으로, 특정 시기에 접어들어서는 모델의 성능이 개선되지 않거나, 오히려 쇠락할 수 있는 포화 상태에 봉착할 수 있다는 것입니다. 특히, 고품질(High Quality) 언어 데이터는 현재 추세가 지속될 경우, 2026년 안에 고갈 상태(Ex)가 된다고 하니 심각한 상황이 아닐 수 없습니다.
<aside> 💡 고품질 데이터와 저품질 데이터
<고품질 데이터> 정의: 일반적으로, 고품질 데이터는 전문적인 기준에 따라 생성되고, 정제된 데이터를 의미해요! 이 데이터는 유용성이나 품질에 대한 검증을 거쳤기 때문에 훈련에 사용될 때 더 나은 모델 성능을 기대할 수 있습니다.
예시: 과학 논문, 서적, 뉴스 기사, 위키피디아 및 필터링된 웹 콘텐츠 등이 있습니다. 이러한 데이터 소스는 대개 데이터가 특정 품질 기준을 충족한다는 공통점이 있습니다.
<저품질 데이터> 정의: 저품질 데이터는 검증이나 필터링 과정 없이 인터넷과 같은 소스에서 직접 수집된 데이터를 의미해요. 이 데이터는 오류가 많거나, 불완전하거나, 관련성이 낮은 정보를 포함할 수 있습니다.
예시: 소셜 미디어 포스트, 사용자가 생성한 블로그 글, 포럼 댓글 등이 포함됩니다. 이러한 데이터는 종종 노이즈가 많고, 퀄리티가 일정하지 않을 수 있습니다.
저품질의 데이터가 고품질 데이터의 생성 속도보다 빠르다는 것을 감안했을 때, 저품질의 데이터를 적절하게 정제하여, 언어 모델에 투입하는 과정이 매우 중요하다고 볼 수 있습니다!
</aside>
이러한 사실은, 우리가 일반적으로 모델을 학습하고 평가하기 위해서, 데이터를 나누는 과정을 생각하면 이해하기 편할 것 같습니다.
먼저, 학습(Train) 데이터와 평가(Test) 데이터를 일차적으로 분할하고, 학습 데이터 중 일부를 검증(Validation) 데이터로 분할하지요. 검증 데이터는, 모델이 학습 데이터를 사용하여 현상에 대한 일반화를 잘 수행하고 있는지 확인합니다. 또한, 평가 데이터는 모델이 이제껏 관찰하지 못한 새로운 데이터에 대한 일반화 정도를 평가하는 용도로 사용됩니다.
이때, 검증 데이터를 바탕으로 모델의 학습 정도를 평가하는 순간, 검증 데이터는 Out-of-date data가 됩니다. 또한, 평가 데이터를 모델에 적용하는 순간, 모델은 새로운 데이터를 관찰하였으므로, 이 또한 Out-of-date data가 됩니다. 데이터 수집의 비용을 고려하여, 동일한 데이터를 몇 번 정도는 반복하여 사용할 수 있습니다. 하지만, 언젠가는 (최대한 빠른 시일) 새로운 데이터를 수혈하여야 합니다.
저는, 이러한 상황을 근거로 하여 크게 두 가지의 결론을 내리게 되었습니다.