概要
Attention Mechanism(以下、Attention)は現在ほぼ全ての領域で使用されているTransformerの元ネタになっている
Encoder-Decoderモデルの限界を解決した
構造事態はEncoderとDecoderの組み合わせである
この章では以下の項目を学んだ
・Attentionの基本(確認テスト1つ含む)
・Encoder側の構造(appendix)
・Decpder側の数学的記述(appendix)
Encoder-Decoderモデルでは意味ベクトルが固定長であるため、長い文章をベクトル内に入れることができない
30単語までの文章で学習したモデルの精度を下の表に示す
上図から分かるように学習したしようした単語数以上の文章がくると精度が悪くなっていることがわかる
Attentionは上記のような問題を解決するために、単語の意味に注目して意味ベクトルを生成する
AttentionはEncoderとDecoderの組み合わせで構築されている
Encoder側の構造
固定次元ではなく、文脈を加味した単語ベクトルを作る
Encoderは以下のような構造をしている
Decpder側の数学的記述
Decpder側は以下のような数学的記述ができる
<<確認テスト>>
RNNとword2vec、seq2seqとAttentionの違いを簡潔に述べよ
RNNは過去の中間層の出力を現在の中間層の入力として使用する、時系列データに対応可能なNNである。word2vecは単語の分散表現ベクトルの獲得を目指した手法
Seq2seqは一つの時系列データから別の時系列データをえるNN。Attentionは時系列データの中身に関して関連性をつける手法である