情景强盗的成本函数


14

我正在用vowpal wabbit解决上下文强盗问题。我正在向用户展示广告,并且我有很多有关显示广告的上下文的信息(例如,用户是谁,他们在哪个网站等)。如John Langford所述,这似乎是一个非常经典的情境强盗问题。

在我的情况下,用户可以对广告有2个主要响应:单击(可能多次)或不单击。我大约可以选择1,000个广告。Vowpal Wabbit要求action:cost:probability每个上下文形式的目标变量。在我的情况,actionprobability很容易搞清楚:action是广告我选择显示,并且probability是选择给我的展示广告目前的政策,即广告的可能性。

但是,我在想出一种将收益(点击)映射为费用的好方法时遇到了麻烦。点击显然很不错,对同一广告的多次点击也比对同一广告的单次点击要好。但是,不点击广告是中立的:除了错过点击机会之外,它实际上并不会花我任何钱(我在奇怪的广告环境中工作)。

我有一些想法:

  1. 费用= -1 *符号(点击)+ 0 *(未点击)
  2. 费用= -1 *点击次数+ 0 *(未点击)
  3. 费用= -1 *符号(点击)+ 0.01 *(未点击)
  4. 费用= -1 *点击次数+ 0.01 *(未点击)

对于一个行动矢量,(0, 1, 5, 0)这四个功能的成本为:

  1. (0, -1, -1, 0)
  2. (0, -1, -5, 0)
  3. (0.01, -1, -1, 0.01)
  4. (0.01, -1, -5, 0.01)

很显然,许多其他的方式来表示clicks=good,并no clicks=bad.在一般情况下,我应该如何建模为vowpal wabbit上下文匪问题成本?是否可以将收益表示为负成本,还是应该重新调整所有规模以使所有成本均为正?相对中立的行为将成本设为零是否可以,或者我应该给它们一个小的正成本,以将模型推向积极的行为?


1
我对“有两种可能的操作感到困惑:用户可以点击广告或用户无法点击广告”。如果您试图决定要显示哪个广告,这些广告是否应作为行动?
高音2014年

1
@alto:我认为应该读为“我们可以为用户记录两种可能的响应”。这更有意义吗?
2014年

我不确定这真的是一个背景强盗问题,因为我不确定您的目标是什么。解决上下文强盗问题“尝试优化一种策略,该策略针对观察到的上下文以最小的成本选择操作。” 您是否要确定要投放多少个广告?试图模拟消费者行为?还有吗
Shadowtalker

1
@ssdecontrol我正在尝试根据上下文确定要显示的广告。这是上下文强盗的一个常用示例问题,但是我从vowpal-wabbit的上下文强盗求解器中获得了非常糟糕的结果。我想知道是否应该以其他方式指定广告的点击或非点击的“费用”。
Zach 2015年

1
@nik我从来没有真正弄清楚,而是使用了来自大众的常规多类模型。
扎克

Answers:


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.