소준섭 개인 프로젝트 | Notion

Papers

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

→ 일단 Transformer 인코더 based

Untitled

AST

video - audio

Dataset?

youtube 5M dataset 리뷰해보기, 8M은 없는듯?

GitHub - keunwoochoi/YouTube-music-video-5M: A repository to host some youtube music video id's

6월 계획

5M dataset 다운로드 받기 → 영상이랑 음원 분리 전처리
루바토랩 서버에서 진행 예정