我正在研究一个多武装的土匪问题,我们没有有关奖励分配的任何信息。
我发现许多论文都保证了对具有已知边界的分布以及在[0,1]中具有支持的一般分布的后悔边界的保证。
我想找出一种方法,在奖励分配无法保证其支持的环境中,能否表现良好。我正在尝试计算非参数公差极限,并使用该数字缩放奖励分布,因此我可以使用本文指定的算法2(http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf)。有人认为这种方法行得通吗?
如果没有,谁能指出我正确的地方?
谢谢一群!