多武装匪徒进行一般性奖励分配


11

我正在研究一个多武装的土匪问题,我们没有有关奖励分配的任何信息。

我发现许多论文都保证了对具有已知边界的分布以及在[0,1]中具有支持的一般分布的后悔边界的保证。

我想找出一种方法,在奖励分配无法保证其支持的环境中,能否表现良好。我正在尝试计算非参数公差极限,并使用该数字缩放奖励分布,因此我可以使用本文指定的算法2(http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf)。有人认为这种方法行得通吗?

如果没有,谁能指出我正确的地方?

谢谢一群!

Answers:


6

Ø日志Ťϵ

即使您提到的简单的汤普森采样算法也需要伯努利分配奖励,甚至花费了80年的时间证明了对数后悔!

[01个]小号小号小号:=2小号

另外,您提到的Thompson采样算法需要伯努利试验,因此您不能使用任意连续奖励。您可以拟合高斯后验分布而不是Beta,但这对您选择的先验有点敏感,因此您可能希望将其设置为非常平坦。如果您不希望证明有关实现的任何信息,则可能会很好地工作。


1
非常感谢您的回复!我真的很感激!我有一个问题。我认为我提到的论文中的算法2(在第39.4页的顶部)不需要任何关于奖励分配的要求,但是它的支持在[0,1]中。也许您在看算法1?
来宾

是的,很酷,将真实值转换为伯努利样本的一个非常有趣的技巧,感谢您指出细节使我无所适从。无论如何,正如您所说,您仍然需要有界变量,您可以使用我提到的廉价双重技巧来完成此操作,并使用此版本的Thompson采样。但是您最好制定一种使用高斯后验的方法。
fairidox

我将进一步研究高斯后验方法,但是对于高斯而言,“平坦”是什么意思?我想这将对应于类似Beta(1,1)(统一)的东西,对吗?
来宾

是的,但是显然您不能在无界域上具有统一的先验。因此,如果您具有高斯后验模型,则您可能会具有高斯先验模型,因此通常希望使其尽可能“平坦”或无信息。通常,这意味着使差异尽可能大。我不是专家,但是有一个完整的研究领域,涉及如何构造您可能想研究的毫无根据,可能不适当的先验知识。另外,如果您获得严格的正面奖励,则可能需要考虑其他模型。
fairidox
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.