ICML2014 : A new Q(lambda) with interim forward view and Monte Carlo equivalence
Q(λ)というのが見慣れなかったので、今回紹介するのはこれ。 http://jmlr.org/proceedings/papers/v32/sutton14.pdf 事前知識 Q学習 Q-learning 参考: http://www.eb.waseda.ac.jp/murata/mituhiro.seki/openhouse/RL_algorithm.php : http://mikilab.doshisha.ac.jp/dia/research/person/suyara/RL/TD-Learning/QL/Q-Learning.html : http://stlab.ssi.ist.hokudai.ac.jp/yuhyama/lecture/OLD/softcomputing/softcomputing-b-4up.pdf 1989年のWatkinsの論文で提唱された強化学習の中のTD 法(temporal difference learning)の手法のひとつ。ほかに強化学習を解く手法には動的計画法・モンテカルロ法があげられるらしい。この3つですべて説明できるかはわからない。 今回は新しいQ-learning手法を提唱するとともにモンテカルロ法と(一部?)同等であることを示しているそうなので、手法の垣根を超える論文なのかもしれない(注:今の時点でタイトルしか読んでない)