您似乎根本不需要逻辑回归。你说的是“我想最大程度地提高真实肯定和错误肯定之间的差异。” 那是一个很好的目标函数,但不是逻辑回归。让我们看看它是什么。
首先,一些符号。因变量将是ÿ一世:
ÿ一世= {1个购买 我 有利可图0购买 我 无利可图
自变量(用于预测是否应该购买的东西)将是(向量)。您尝试估计的参数将是(向量)。您将在时预测购买。对于观察,您预测当或指标函数。X一世βX一世β> 0一世X一世β> 01个X一世β> 0= 1
当和时,观察上会出现真正的正数。当且时,会发生对观察误报。您希望找到,它使真实的正数减去错误的正数最大化,或者:
一世ÿ一世= 11个X一世β> 0= 1一世ÿ一世= 01个X一世β> 0= 1β
米一Xβ∑我= 1ñÿ一世⋅1个X一世β> 0-∑我= 1ñ(1 -ÿ一世)⋅1个X一世β> 0
这不是一个用于估计离散响应模型的特别熟悉的目标函数,但是当我对目标函数做一些代数时,请耐心等待:
===∑我= 1ñÿ一世⋅1个X一世β> 0-∑我= 1ñ(1 -ÿ一世)⋅1个X一世β> 0∑我= 1ñÿ一世⋅1个X一世β> 0-∑我= 1ñ1个X一世β> 0+∑我= 1ñÿ一世⋅1个X一世β> 0∑我= 1ñÿ一世⋅1个X一世β> 0-∑我= 1ñ1个X一世β> 0+∑我= 1ñÿ一世⋅1个X一世β> 0+∑我= 1ñ1 -∑我= 1ñ1 +∑我= 1ñÿ一世-∑我= 1ñÿ一世∑我= 1ñÿ一世⋅1个X一世β> 0+∑我= 1ñ(1 -ÿ一世)(1 −1个X一世β> 0)-∑我= 1ñ1 +∑我= 1ñÿ一世
好的,现在请注意,该总和的最后两项不是函数,因此我们可以在最大化中忽略它们。最后,我们刚刚表明,您要解决的问题“最大化正阳性和假阳性之间的差异”与该问题相同:
β
米一Xβ∑我= 1ñÿ一世⋅1个X一世β> 0+∑我= 1ñ(1 -ÿ一世)(1 −1个X一世β> 0)
现在,这个估算器有了一个名字!它被称为最高分数估算器。这是一种估计离散响应模型参数的非常直观的方法。选择参数以便最大化正确预测的数量。第一项是真实正数,第二项是真实负数。
这是估计(二进制)离散响应模型的一种很好的方法。例如,估计量是一致的。(Manski,1985,Econometrics J)但是,这个估计量有些奇怪。首先,它在小样本中不是唯一的。一旦找到一个可以解决最大值的,那么在您的数据集中做出完全相同的预测的其他也会解决该最大值-因此,无限多个接近您找到的。另外,估计量不是渐近正态的,并且收敛速度比典型的最大似然估计量慢-求根而不是根βββññ收敛。(Kim和Pollard,1990,Stat的安)最后,您不能使用自举对其进行推断。(Abrevaya&Huang,2005,Econometrica)尽管有一些论文使用了这种估算器--- Caudill的《 NCAA篮球锦标赛》中关于预测结果的预测很有趣,《国际预测杂志》,2003年4月,第19版,iss。2,第313-17页。
克服大多数问题的一种估计器是Horowitz的平滑最大得分估计器(Horowitz,1992; Econometrica和Horowitz,2002,计量经济学杂志)。它给出了根一致的,渐近正态的唯一估计量,该估计量适合自举。Horowitz提供示例代码以在其网页上实现其估算器。ñ