Questions tagged «vowpal-wabbit»

1
情景强盗的成本函数
我正在用vowpal wabbit解决上下文强盗问题。我正在向用户展示广告,并且我有很多有关显示广告的上下文的信息(例如,用户是谁,他们在哪个网站等)。如John Langford所述,这似乎是一个非常经典的情境强盗问题。 在我的情况下,用户可以对广告有2个主要响应:单击(可能多次)或不单击。我大约可以选择1,000个广告。Vowpal Wabbit要求action:cost:probability每个上下文形式的目标变量。在我的情况,action并probability很容易搞清楚:action是广告我选择显示,并且probability是选择给我的展示广告目前的政策,即广告的可能性。 但是,我在想出一种将收益(点击)映射为费用的好方法时遇到了麻烦。点击显然很不错,对同一广告的多次点击也比对同一广告的单次点击要好。但是,不点击广告是中立的:除了错过点击机会之外,它实际上并不会花我任何钱(我在奇怪的广告环境中工作)。 我有一些想法: 费用= -1 *符号(点击)+ 0 *(未点击) 费用= -1 *点击次数+ 0 *(未点击) 费用= -1 *符号(点击)+ 0.01 *(未点击) 费用= -1 *点击次数+ 0.01 *(未点击) 对于一个行动矢量,(0, 1, 5, 0)这四个功能的成本为: (0, -1, -1, 0) (0, -1, -5, 0) (0.01, -1, -1, 0.01) (0.01, -1, -5, 0.01) 很显然,许多其他的方式来表示clicks=good,并no clicks=bad.在一般情况下,我应该如何建模为vowpal wabbit上下文匪问题成本?是否可以将收益表示为负成本,还是应该重新调整所有规模以使所有成本均为正?相对中立的行为将成本设为零是否可以,或者我应该给它们一个小的正成本,以将模型推向积极的行为?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.