https://youtu.be/Q3iGntWdj88
https://youtu.be/J8Uk8mvKYl4
- Transformer에 대해서 상세 내용은 다음 참조
- 우리가 세상에서 받는 정보는 여러 modal로부터 들어옴
- visual과 text를 합한 데이터를 학습
- speech 데이터도 text로 변환한 후에 할 수 있음
- audio도 이미지로 변환한 후에 학습함
- 트랜스포머를 배우고, 트랜스포머 기반으로 여러가지 배워보겠다
- word embedding은 단어를 벡터화 하는 것