n-armed bandit problem
n-armed bandit problem という問題に取り組んでみました。
アームが n 個付いたスロットマシンがあり、それらのアームを引くとそれぞれ確率 p1, p2, …, pn で
1ドルの賞金がもらえる機械を想定する。このとき、p1, p2, …, pn が未知として、N 回アームを引いた
際の賞金の期待値を最大化する戦略を求めよ。
強化学習の分野で昔から研究されている問題であり、問題の設定自体はシンプルですが、解くのは非常に難しいです。いくつか気になった文献をメモしておきます。