多武装匪徒进行一般性奖励分配

我正在研究一个多武装的土匪问题，我们没有有关奖励分配的任何信息。

我发现许多论文都保证了对具有已知边界的分布以及在[0,1]中具有支持的一般分布的后悔边界的保证。

我想找出一种方法，在奖励分配无法保证其支持的环境中，能否表现良好。我正在尝试计算非参数公差极限，并使用该数字缩放奖励分布，因此我可以使用本文指定的算法2（http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf）。有人认为这种方法行得通吗？

如果没有，谁能指出我正确的地方？

谢谢一群！

references multiarmed-bandit

— 客人
source

$\mathcal{O}(\log(T))$ $\epsilon$

即使您提到的简单的汤普森采样算法也需要伯努利分配奖励，甚至花费了80年的时间证明了对数后悔！

$[0,1]$ $S$ $S$ $S:=2S$

另外，您提到的Thompson采样算法需要伯努利试验，因此您不能使用任意连续奖励。您可以拟合高斯后验分布而不是Beta，但这对您选择的先验有点敏感，因此您可能希望将其设置为非常平坦。如果您不希望证明有关实现的任何信息，则可能会很好地工作。

— Fairidox
source

非常感谢您的回复！我真的很感激！我有一个问题。我认为我提到的论文中的算法2（在第39.4页的顶部）不需要任何关于奖励分配的要求，但是它的支持在[0,1]中。也许您在看算法1？

— 来宾

是的，很酷，将真实值转换为伯努利样本的一个非常有趣的技巧，感谢您指出细节使我无所适从。无论如何，正如您所说，您仍然需要有界变量，您可以使用我提到的廉价双重技巧来完成此操作，并使用此版本的Thompson采样。但是您最好制定一种使用高斯后验的方法。

— fairidox

我将进一步研究高斯后验方法，但是对于高斯而言，“平坦”是什么意思？我想这将对应于类似Beta（1,1）（统一）的东西，对吗？

— 来宾

是的，但是显然您不能在无界域上具有统一的先验。因此，如果您具有高斯后验模型，则您可能会具有高斯先验模型，因此通常希望使其尽可能“平坦”或无信息。通常，这意味着使差异尽可能大。我不是专家，但是有一个完整的研究领域，涉及如何构造您可能想研究的毫无根据，可能不适当的先验知识。另外，如果您获得严格的正面奖励，则可能需要考虑其他模型。

— fairidox