안녕하세요!
이번 시간에는 간단한 머신러닝 태스크를 진행하고, 그 결과를 MLflow Tracking 서버에 저장하도록 하겠습니다.
또한, MLFlow server와 연동된 GCP의 Artifact store 및 Backend store에 어떠한 데이터가 저장되어 있는지 확인해보죠!
MLFlow server와 GCP 연동에 관련된 내용은 앞선 포스팅(1~3편)을 참고해주시기 바랍니다.
또한, 머신러닝 태스크 수행 시 필요한 설정은 Hydra를 이용했습니다.
Hydra 사용 방법에 대한 자세한 내용은 Hydra를 이용한 설정 관리 프로젝트 포스팅(총 3편)을 참고해주세요!
전체 코드는 아래 Github 링크에 있습니다!
https://github.com/jihoahn9303/MLflow-with-GCP
이번 시간에 다룰 머신러닝 태스크는 **감성 분석(Sentiment Analysis)**입니다.
이를 위하여 사용할 데이터는 Kaggle에서 제공한 ‘IMDB Dataset of 50K Movie Reviews’입니다.
총 5만 개의 데이터로 구성되어 있으며, Review와 Sentiment 컬럼이 포함되어 있어요!
결과적으로 Review를 통해 Sentiment(positive, negative)를 분류하는 task가 되겠습니다✌