概要
分類問題のための機械学習手法を学んだ
この章では以下の項目を学んだ
・最近傍法
・k近傍法(k-nn)
・syntheticデータのハンズオン
・k平均法(k-means)
・syntheticデータのハンズオン
最近傍法
教師あり学習の分類手法
新しいデータを置いた時に訓練データとの距離を計算して、最も距離が近いデータのクラスターにそのデータを割り当てる
k近傍法(k-nn)
教師あり学習の分類手法
新しいデータを置いたときに、そのデータから距離的に近いk個のクラスターをとり、そのk個のうち多数側のクラスターにそのデータを割り当てる
・kはハイパーパラメータであり任意に設定する
・k=1のとき最近傍法と同じになる
・陽に訓練ステップは存在しない
syntheticデータのハンズオン
k-nnにてsyntheticデータと分類結果をプロット
kが大きくなるほど境界線上が滑らかになっているのを確認できる
k平均法(k-means)
①各クラスタ中心の初期値を設定する
②各データ点に対して、各クラスタ中心との距離を計算し、最も距離が近いクラスタを割り当てる
③各クラスタの平均ベクトル(中心)を計算する
④収束するまで②、③の処理を繰り返す
クラスタリング精度は①の初期値に左右される
syntheticデータのハンズオン
k-meansにてsyntheticデータと分類結果をプロット
kの数だけ分類出来ていることが分かる