ラビットチャレンジ【深層学習day3】~Attention Mechanism~

概要

Attention Mechanism(以下、Attention)は現在ほぼ全ての領域で使用されているTransformerの元ネタになっている

Encoder-Decoderモデルの限界を解決した

構造事態はEncoderとDecoderの組み合わせである

この章では以下の項目を学んだ

・Attentionの基本(確認テスト1つ含む)

・Encoder側の構造(appendix)

・Decpder側の数学的記述(appendix)

Encoder-Decoderモデルでは意味ベクトルが固定長であるため、長い文章をベクトル内に入れることができない

30単語までの文章で学習したモデルの精度を下の表に示す

f:id:Maruring:20210717170230p:plain

上図から分かるように学習したしようした単語数以上の文章がくると精度が悪くなっていることがわかる

Attentionは上記のような問題を解決するために、単語の意味に注目して意味ベクトルを生成する

AttentionはEncoderとDecoderの組み合わせで構築されている

Encoder側の構造

固定次元ではなく、文脈を加味した単語ベクトルを作る

Encoderは以下のような構造をしている

f:id:Maruring:20210717170832p:plain

Decpder側の数学的記述

Decpder側は以下のような数学的記述ができる

f:id:Maruring:20210717170930p:plain

<<確認テスト>>

RNNとword2vec、seq2seqとAttentionの違いを簡潔に述べよ

RNNは過去の中間層の出力を現在の中間層の入力として使用する、時系列データに対応可能なNNである。word2vecは単語の分散表現ベクトルの獲得を目指した手法

Seq2seqは一つの時系列データから別の時系列データをえるNN。Attentionは時系列データの中身に関して関連性をつける手法である