统计和大数据 vowpal-wabbit

情景强盗的成本函数

我正在用vowpal wabbit解决上下文强盗问题。我正在向用户展示广告，并且我有很多有关显示广告的上下文的信息（例如，用户是谁，他们在哪个网站等）。如John Langford所述，这似乎是一个非常经典的情境强盗问题。在我的情况下，用户可以对广告有2个主要响应：单击（可能多次）或不单击。我大约可以选择1,000个广告。Vowpal Wabbit要求action:cost:probability每个上下文形式的目标变量。在我的情况，action并probability很容易搞清楚：action是广告我选择显示，并且probability是选择给我的展示广告目前的政策，即广告的可能性。但是，我在想出一种将收益（点击）映射为费用的好方法时遇到了麻烦。点击显然很不错，对同一广告的多次点击也比对同一广告的单次点击要好。但是，不点击广告是中立的：除了错过点击机会之外，它实际上并不会花我任何钱（我在奇怪的广告环境中工作）。我有一些想法：费用= -1 *符号（点击）+ 0 *（未点击）费用= -1 *点击次数+ 0 *（未点击）费用= -1 *符号（点击）+ 0.01 *（未点击）费用= -1 *点击次数+ 0.01 *（未点击）对于一个行动矢量，(0, 1, 5, 0)这四个功能的成本为： (0, -1, -1, 0) (0, -1, -5, 0) (0.01, -1, -1, 0.01) (0.01, -1, -5, 0.01) 很显然，许多其他的方式来表示clicks=good，并no clicks=bad.在一般情况下，我应该如何建模为vowpal wabbit上下文匪问题成本？是否可以将收益表示为负成本，还是应该重新调整所有规模以使所有成本均为正？相对中立的行为将成本设为零是否可以，或者我应该给它们一个小的正成本，以将模型推向积极的行为？

14 multinomial gradient-descent multiarmed-bandit vowpal-wabbit contextual-bandit

Questions tagged «vowpal-wabbit»