背景
エージェントと環境の相互作用により学習を行う強化学習は、状態数の増加に伴い計算コストが増大する問題があった。それに対し自然強化学習は、目的水準を定めることで強化学習よりも簡単な弱教師あり学習を可能にしている。
先行研究
RSは上述の通り目的水準を設定し、それを満たすかどうかで行動を行うアルゴリズムで、目的水準を適切に設定しさえすれば、既存手法よりも素早い学習と同等以上の性能を発揮できる。
GRCはRSの問題点である、各状態に対して目的水準を設定することが計算上難しいという点を解消したもので、タスク全体の目的水準をベースとして設定し、各状態における目的水準をそこから算出する仕組み。
これらの目的水準は固定値であった。なら動的に設定しようというのが本研究の試み。
提案手法
タスク中において目的水準の調整を行う。1エピソードごとに目的水準を引き上げたり下げたりする。
実験
Suboptima Worldと迷路タスクを行わせる。前者は準最適解が存在するタスクで、後者は負の報酬しか与えられないタスクである。
結果
いずれのタスクでも最適解を見つけることが示された。Suboptimal Worldの場合は必ずしも最適解に到達するわけではないものの、収束が早い。一方迷路タスクの場合は最適解には行くものの学習速度が遅かった。ここはトレードオフの関係らしい。
感想
最適解を与えずともGRCと張り合えるのはすごいと思ったが、単純にp制御によって目的水準の更新が行われるのはどうなんでしょう…最適解を見つける前に更新が小さくなってしまう問題については、非線形にすればもうちょい上手くいくかもしれないが、関数の選択は経験的になりそうだ。いずれにせよ、自分は強化学習についての知識が足りてなさすぎる…