ラビットチャレンジ【深層学習Day4】～強化学習～

強化学習は報酬をもとによりよい行動を探す手法である

方策関数や行動価値関数が使用されている

様々な実用例がある

この章では以下の項目を学んだ

・強化学習の応用例

・探索と利用のトレードオフ

・強化学習のイメージ

・方策関数

・方策勾配法

・最新の強化学習とかまとめ(appdndix)

長期的に報酬を最大化できるように環境のなかで行動を選択できるエージェントを作ることを目標とする機械学習の一分野である

行動すれば環境がかわり、その環境下で報酬が最大になるような行動を実行することが目的である

強化学習は以下のような実用例がある

・ゲーム

どれだけ多く点数を取れるか、どれだけいい結果を出せるかを学習する

・自動運転

車両の幅に対して道路が狭く、車が密集した交差点というような難易度の高い問題に対しての動きを学習する

・ロボットアーム

どのような動作をすれば最適なロボットアームの動きになるかを学習する

以下のような関係がある

f:id:Maruring:20210717175935p:plain

以下はイメージである

f:id:Maruring:20210717180059p:plain

強化学習では優れた方策を見つけるのが目標であり、パターンを見つけ出したりデータから予測することはしない

価値関数

・状態価値関数：ある状態に着目

・行動価値関数：状態と価値を組み合わせた価値に注目

方策関数

ある状態においてどのような行動をとるかの確率を与える関数

方策関数は以下の数学的記述ができる

f:id:Maruring:20210717181048p:plain

方策勾配法は以下の数学的記述ができる

また▽Jは「方策の良さ」であり自分で定義するものである。NNであれば誤差関数であり小さくするのが目的であったが、強化学習では期待収益を大きく<することが目的である/p>

f:id:Maruring:20210717181623p:plain