沃伦·巴菲特问题


19

这是我在暑假期间一直在研究的在线学习/强盗问题的抽象。我以前从未见过这样的问题,而且看起来很有趣。如果您知道任何相关的工作,我将不胜感激。

问题问题 的设置是多臂匪。你有N支武器。我的每个手臂在通过玩游戏可获得的奖励上都有未知但固定的概率分布。具体来说,我们假设每条手臂以概率p [i]支付$ 10奖励,并以prob奖励$ 0。1-p [i]

在每一轮牛逼你选择一组S [T]的武器发挥。对于您选择的每个手臂,您需要预先支付1美元的费用。对于每个选定的手臂,​​您将从该手臂的(未知)奖励概率分布中收集奖励。所有奖励都记入您的银行帐户,所有费用均从该帐户中扣除。此外,在每次迭代的开始您都会获得$ 1的抵免额。

问题是要制定一种策略,在每次迭代中选择要使用的一组武器,以在足够长的时间范围内最大化利润(即奖励减去玩游戏的费用),但要受其必须保持非负帐户余额的约束。一直。

我没有具体说明是从先前的分配中选择还是由对手选择每人的奖励分配。两种选择都有意义。对手的表述对我来说更有吸引力,但可能很难取得进展。在此,对手选择分布的向量(D1,D2,..,DN)。在给定分配的情况下,最佳预算平衡策略是发挥所有预期收益大于1美元的武器。令P为该最优全知策略的每步利润。我希望我的在线政策能够最大程度地减少这种无知的政策带来的后悔(即,在一段时间内损失的利润)。


您确定最佳策略是在每一轮中都使用预期奖励大于$ 1的所有武器吗?如果您有严格的限制条件,必须始终保持非负帐户余额,那么在某些回合中甚至可能不允许您进行比赛。
马提亚斯(Matthias)2010年

因此,您不知道奖励的可能性,但您可以说出每个人的收益?
David Thornley 2010年

您不知道概率,也不知道预期的回报。我想与自己进行比较的全知的“最佳”策略可以以大于1的奖励发挥所有作用,因为它是全知的。
MartinPál2010年

1
我会做出一个大胆的猜测,即在轮之后,您可以将期望收入保持在最佳最优常数之内,此后问题似乎失去了大部分非常规特征。当只有一个支路的回报为非零时,出现下限Ω N 。我没有立即看到上限。ΘñΩñ
沃伦·舒迪

校正:在整之后,您可能无法保证获得最佳收入的恒定因素。但是,相对于预期收益至少为2美元的武器可获得的收入,您可能可以获得该保证。Θñ
沃伦·舒迪

Answers:


13

我想有很多解决此问题的方法(我确定您已经考虑了其中的许多方法)-这里有一些想法/参考。

  • 您可以将其作为独立的平行单臂强盗游戏来玩,决定独立拉动还是不拉动每个臂。如果奖励是独立分配的,这应该特别有效。ñ
  • 允许每组机械臂成为新机械臂并运行Exp3类型算法。这给出了一个遗憾-没有那么大。Ø2ñ/2Ť1个/2
  • 在即将出版的NIPS 2010论文中,我和Saten Kale,Rob Schapire一起考虑一种情况。但是,在我们的工作中,板岩的大小是固定的。本文还考虑了类似的问题。另一项类似的工作出现在ALT 2010中。也许有些想法得以传播。
  • 如果将其视为专家问题(每位专家建议使用个子集中的另一个子集),则通过关注一位专家,您可以通过使用以下方法来估计其他非空交点专家的性能:重要权重。一个EXP4类型的分析可能让你Ø ñ 2ñ后悔,但O2NT运行时间。ØñŤØ2ñŤ

在下面编辑:

01个ñ-1个/ñŤŤñ-1个Ť/ñ

021个/


嗨,列夫,谢谢你的指点。我同意,如果我有无限的初始预算来打N个平行的单臂土匪,就可以解决这个问题。然而,预算约束导致了各部门之间的耦合,并使事情变得有趣。特别是,在第一步中,您只有预算才能发挥作用。在第二步中,您可以玩11臂或仅1臂,这取决于您在第一步中是否幸运,依此类推。因此,重要的是尽早找到一堆有利可图的武器,然后用它们来资助进一步的勘探。
MartinPál2010年

2
我没有意识到有一个初始预算(我现在理解“非负余额”部分,但是也许您可以在问题中更清楚些?)-这使问题变得更加有趣。同样,“上下文”或专家版本可能会很有趣。不幸的是,我不知道与该问题有关的更多参考资料。
列夫·雷津

如果我正确地解决了问题,那么您每轮可额外获得$ 1。马丁,您能否澄清这个问题?
Jukka Suomela 2010年

我认为,只要您玩机器,您就能获得一台机器支付的一切,每当您决定玩游戏时,它就会赢利和输掉$ 1。
列夫·雷津
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.