ラビットチャレンジ【機械学習】~主成分分析~

概要

データの分析や機械学習の特徴量製作において重要となる主成分分析について学習する

この章では以下の項目を学んだ

・主成分分析の基礎

最適化問題の解き方

・寄与率、累積寄与率

乳がん検査データでのハンズオン

主成分分析の基礎

多変量のデータを情報量を落とさずに低次元に圧縮する。低次元(3次元以下)になれば可視化できるので、直感的にデータを捉えることが出来る

そもそも情報量とは何か? ⇒ 分散(情報がどれだけ散らばっているか)

最適化問題の解き方

主成分分析の目的関数と制約条件は以下ようになる

制約条件下で最適化問題を解くためにラグランジュ関数を最大する重みを探索する

最適化問題を解けば固有値が算出できる。k番目の固有値(昇順)並べ、対応する固有ベクトルを第k主成分と呼ぶ

f:id:Maruring:20210715141407p:plain

f:id:Maruring:20210715141421p:plain

↓射影軸を探索するまでの手順↓

①線形変換後の変数の分散が最大となる射影軸を探索する ⇒ 1軸にする

②1軸と直交している状態で分散が最大となる射影軸を探索する ⇒ 2軸にする

③ ①と②を元の次元数分繰り返す

f:id:Maruring:20210715141443p:plain

寄与率、累積寄与率

寄与率

第k主成分の分散の全分散に対する割合

累積寄与率

第1-k主成分まで圧縮した際の情報量損失の割合

乳がん検査データでのハンズオン

2次元のデータを2次元上に次元圧縮した際に、うまく判別できるかを確認

f:id:Maruring:20210715151855p:plain

学習用データで96%,検証用データ93%の結果になった。全変数をぶち込むより、次元圧縮して結果が少しわるくなった

2次元圧縮するとある程度、情報量がおちるのが原因?