Questions tagged «multiarmed-bandit»


4
在哪种现实生活中,我们可以使用多臂强盗算法?
多臂强盗在您有选择的情况下工作得很好,并且您不确定哪个会最大化您的健康。您可以在某些现实生活中使用该算法。例如,学习可以是一个很好的领域: 如果一个孩子在学习木工,但对它不擅长,该算法将告诉他/她可能需要继续前进。如果他/她擅长,算法将告诉他/她继续学习该领域。 约会也是一个很好的领域: 你是一个男人,在追求女士方面投入了很多“精力”。但是,您的努力绝对是不受欢迎的。该算法应“轻微”(或强烈)推动您继续前进。 我们可以在多现实情况下使用多臂强盗算法吗? PS:如果问题过于广泛,请发表评论。如果达成共识,我将删除我的问题。

1
情景强盗的成本函数
我正在用vowpal wabbit解决上下文强盗问题。我正在向用户展示广告,并且我有很多有关显示广告的上下文的信息(例如,用户是谁,他们在哪个网站等)。如John Langford所述,这似乎是一个非常经典的情境强盗问题。 在我的情况下,用户可以对广告有2个主要响应:单击(可能多次)或不单击。我大约可以选择1,000个广告。Vowpal Wabbit要求action:cost:probability每个上下文形式的目标变量。在我的情况,action并probability很容易搞清楚:action是广告我选择显示,并且probability是选择给我的展示广告目前的政策,即广告的可能性。 但是,我在想出一种将收益(点击)映射为费用的好方法时遇到了麻烦。点击显然很不错,对同一广告的多次点击也比对同一广告的单次点击要好。但是,不点击广告是中立的:除了错过点击机会之外,它实际上并不会花我任何钱(我在奇怪的广告环境中工作)。 我有一些想法: 费用= -1 *符号(点击)+ 0 *(未点击) 费用= -1 *点击次数+ 0 *(未点击) 费用= -1 *符号(点击)+ 0.01 *(未点击) 费用= -1 *点击次数+ 0.01 *(未点击) 对于一个行动矢量,(0, 1, 5, 0)这四个功能的成本为: (0, -1, -1, 0) (0, -1, -5, 0) (0.01, -1, -1, 0.01) (0.01, -1, -5, 0.01) 很显然,许多其他的方式来表示clicks=good,并no clicks=bad.在一般情况下,我应该如何建模为vowpal wabbit上下文匪问题成本?是否可以将收益表示为负成本,还是应该重新调整所有规模以使所有成本均为正?相对中立的行为将成本设为零是否可以,或者我应该给它们一个小的正成本,以将模型推向积极的行为?



1
多武装匪徒进行一般性奖励分配
我正在研究一个多武装的土匪问题,我们没有有关奖励分配的任何信息。 我发现许多论文都保证了对具有已知边界的分布以及在[0,1]中具有支持的一般分布的后悔边界的保证。 我想找出一种方法,在奖励分配无法保证其支持的环境中,能否表现良好。我正在尝试计算非参数公差极限,并使用该数字缩放奖励分布,因此我可以使用本文指定的算法2(http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf)。有人认为这种方法行得通吗? 如果没有,谁能指出我正确的地方? 谢谢一群!
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.