这是我在暑假期间一直在研究的在线学习/强盗问题的抽象。我以前从未见过这样的问题,而且看起来很有趣。如果您知道任何相关的工作,我将不胜感激。
问题问题 的设置是多臂匪。你有N支武器。我的每个手臂在通过玩游戏可获得的奖励上都有未知但固定的概率分布。具体来说,我们假设每条手臂我以概率p [i]支付$ 10奖励,并以prob奖励$ 0。1-p [i]。
在每一轮牛逼你选择一组S [T]的武器发挥。对于您选择的每个手臂,您需要预先支付1美元的费用。对于每个选定的手臂,您将从该手臂的(未知)奖励概率分布中收集奖励。所有奖励都记入您的银行帐户,所有费用均从该帐户中扣除。此外,在每次迭代的开始您都会获得$ 1的抵免额。
问题是要制定一种策略,在每次迭代中选择要使用的一组武器,以在足够长的时间范围内最大化利润(即奖励减去玩游戏的费用),但要受其必须保持非负帐户余额的约束。一直。
我没有具体说明是从先前的分配中选择还是由对手选择每人的奖励分配。两种选择都有意义。对手的表述对我来说更有吸引力,但可能很难取得进展。在此,对手选择分布的向量(D1,D2,..,DN)。在给定分配的情况下,最佳预算平衡策略是发挥所有预期收益大于1美元的武器。令P为该最优全知策略的每步利润。我希望我的在线政策能够最大程度地减少这种无知的政策带来的后悔(即,在一段时间内损失的利润)。
您确定最佳策略是在每一轮中都使用预期奖励大于$ 1的所有武器吗?如果您有严格的限制条件,必须始终保持非负帐户余额,那么在某些回合中甚至可能不允许您进行比赛。
—
马提亚斯(Matthias)2010年
因此,您不知道奖励的可能性,但您可以说出每个人的收益?
—
David Thornley 2010年
您不知道概率,也不知道预期的回报。我想与自己进行比较的全知的“最佳”策略可以以大于1的奖励发挥所有作用,因为它是全知的。
—
MartinPál2010年
我会做出一个大胆的猜测,即在轮之后,您可以将期望收入保持在最佳最优常数之内,此后问题似乎失去了大部分非常规特征。当只有一个支路的回报为非零时,出现下限Ω (N )。我没有立即看到上限。
—
沃伦·舒迪
校正:在整之后,您可能无法保证获得最佳收入的恒定因素。但是,相对于预期收益至少为2美元的武器可获得的收入,您可能可以获得该保证。
—
沃伦·舒迪