Papers
- VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text
→ 일단 Transformer 인코더 based
Dataset?
- youtube 5M dataset 리뷰해보기, 8M은 없는듯?
GitHub - keunwoochoi/YouTube-music-video-5M: A repository to host some youtube music video id's
6월 계획
- 5M dataset 다운로드 받기 → 영상이랑 음원 분리 전처리
- 루바토랩 서버에서 진행 예정