Jun Araki’s Blog
随所に主となれば立処皆真なり

2007 年 12 月 24 日

n-armed bandit problem

Filed under: Research — araki @ 10:24 PM

n-armed bandit problem という問題に取り組んでみました。

アームが n 個付いたスロットマシンがあり、それらのアームを引くとそれぞれ確率 p1, p2, …, pn で
1ドルの賞金がもらえる機械を想定する。このとき、p1, p2, …, pn が未知として、N 回アームを引いた
際の賞金の期待値を最大化する戦略を求めよ。

強化学習の分野で昔から研究されている問題であり、問題の設定自体はシンプルですが、解くのは非常に難しいです。いくつか気になった文献をメモしておきます。

コメントはまだありません »

No comments yet.

RSS feed for comments on this post. TrackBack URL

Leave a comment

 

Powered by WordPress