ラビットチャレンジ【機械学習】~アルゴリズム~

概要

分類問題のための機械学習手法を学んだ

この章では以下の項目を学んだ

・最近傍法

・k近傍法(k-nn)

・syntheticデータのハンズオン

・k平均法(k-means)

・syntheticデータのハンズオン

最近傍法

教師あり学習の分類手法

新しいデータを置いた時に訓練データとの距離を計算して、最も距離が近いデータのクラスターにそのデータを割り当てる

f:id:Maruring:20210715155234p:plain

k近傍法(k-nn)

教師あり学習の分類手法

新しいデータを置いたときに、そのデータから距離的に近いk個のクラスターをとり、そのk個のうち多数側のクラスターにそのデータを割り当てる

・kはハイパーパラメータであり任意に設定する

・k=1のとき最近傍法と同じになる

・陽に訓練ステップは存在しない

f:id:Maruring:20210715155953p:plain

syntheticデータのハンズオン

k-nnにてsyntheticデータと分類結果をプロット

kが大きくなるほど境界線上が滑らかになっているのを確認できる

f:id:Maruring:20210715181454p:plain

 

k平均法(k-means)

教師なし学習クラスタリング手法

①各クラスタ中心の初期値を設定する

②各データ点に対して、各クラスタ中心との距離を計算し、最も距離が近いクラスタを割り当てる

③各クラスタの平均ベクトル(中心)を計算する

④収束するまで②、③の処理を繰り返す

クラスタリング精度は①の初期値に左右される

f:id:Maruring:20210715160124p:plain

syntheticデータのハンズオン

k-meansにてsyntheticデータと分類結果をプロット

kの数だけ分類出来ていることが分かる

f:id:Maruring:20210715182359p:plain