概要
Word2vecは単語の分散表現の目指した手法である
one-hotで単語表現すると次元数が異常に高くなる問題を解決できる
Word2vecでは分散表現を得るというタスクと別問題を解くことで本来の目的を達成する
この章では以下の項目を学んだ
・Word2vecの基本
・CBOW(appendix)
・skip-gram(appendix)
Word2vecの基本
基本的な考えは単語の意味が遠い・近いでベクトルを割り振るというものである
下図のように近い単語に近い構造をしているベクトルを割り振りたい
単純に考えるとone-hotベクトルで表現できるが、単語数に応じて次元数が増えていく
上記のような問題を解決するために分散表現を得て意味を抽出して数10~数100次元に圧縮する
分散表現を得ることで計算の効率化、精度の向上が可能である
word2vecは1つのモデルではなく総称である
CBOW、skip-gramというモデルと高速化手法「なし」、「Negative Samplig」、「段階的ソフトマックス」の3種類の計6種の組み合わせである
CBOW(continuous Bag of words)
前後C個ずつの単語から中央の単語を予想する
skip-gram
中央の文字から周囲の文字を予測(CBOWと逆)