原論文
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
関連論文:Attention Is All You Need
解説
アイシア・ソリッド先生による解説動画。
https://youtu.be/IaTCGRL41_k
モデルについて
- 入力
- 二つの文を、頭に
CLS
(classifier)をつけて、SEP
(separator)で区切って入力
- 文中の単語は $t_1 ... t_n$ としてトークンベクトルにする
- そのそれぞれにsegment vector(二つの文のうちのどちらか)、position vector(文のどこにあったか)を足してやったものがtransformerへの入力になる

- 出力
- 入力と同数の出力が得られる。それを後でみるように適宜使う
