Jun Araki’s Blog
随所に主となれば立処皆真なり

2007 年 12 月 24 日

n-armed bandit problem

Filed under: Research — araki @ 10:24 PM

n-armed bandit problem という問題に取り組んでみました。

アームが n 個付いたスロットマシンがあり、それらのアームを引くとそれぞれ確率 p1, p2, …, pn で
1ドルの賞金がもらえる機械を想定する。このとき、p1, p2, …, pn が未知として、N 回アームを引いた
際の賞金の期待値を最大化する戦略を求めよ。

強化学習の分野で昔から研究されている問題であり、問題の設定自体はシンプルですが、解くのは非常に難しいです。いくつか気になった文献をメモしておきます。

コメントはまだありません »

コメントはまだありません。

この投稿へのコメントの RSS フィード TrackBack URL

コメントをどうぞ

 

Powered by WordPress