Answers:
像任何度量标准一样,如果您必须在没有观测信息的情况下进行猜测,那么好的度量标准就是比“哑巴”偶然的猜测更好的度量标准。这在统计信息中称为仅拦截模型。
这种“愚蠢”的猜测取决于两个因素:
在LogLoss度量的情况下,一种通常的“众所周知的”度量是说0.693是非信息性值。该图是通过预测p = 0.5
任何类别的二进制问题而获得的。这仅对平衡的二进制问题有效。因为当一个类别的患病率为10%时,您将p =0.1
始终为该类别进行预测。这将是您哑巴,偶然机会预测的基准,因为预测0.5
将是哑巴的。
I. 班级数量对N
哑哑记录的影响:
在平衡的情况下(每个类的患病率都相同),当您p = prevalence = 1 / N
为每个观察值进行预测时,方程变为:
Logloss = -log(1 / N)
log
是Ln
使用该约定的人的尼泊尔对数。
在二进制情况下N = 2
:Logloss = - log(1/2) = 0.693
因此,愚蠢的Logloss如下:
二。班级盛行对哑巴洛格洛斯的影响:
一种。二进制分类案例
在这种情况下,我们始终预测p(i) = prevalence(i)
,并获得下表:
因此,当类非常不平衡时(患病率<2%),对数损失0.1实际上可能非常糟糕!在这种情况下,例如98%的精度将是不好的。因此,也许Logloss并不是使用的最佳指标
b。三类情况
取决于流行程度的“哑”对数损失-三类情况:
我们可以在这里看到平衡的二进制和三类情况(0.69和1.1)的值。
结论
在多类问题中,对数损失为0.69可能是好的,而在二进制有偏的情况下,则很不好。
根据您的情况,您最好自己计算问题的基准,以检查预测的含义。
在有偏见的情况下,我知道对数损失与精度和其他损失函数存在相同的问题:它仅提供对绩效的整体衡量。因此,您最好使用针对少数类(召回率和精度)的指标来补充您的理解,或者根本不使用对数丢失。
因此,这实际上比Firebugs响应要复杂得多,这全都取决于您尝试预测的过程的内在变化。
当我说变异时,我的意思是“如果一个事件要在完全相同的条件下(已知和未知)重复发生,则相同结果再次发生的可能性是多少”。
完美的预测变量的概率为P:损失= P ln P +(1-P)ln(1-P)
如果您试图预测某些情况,在更坏的情况下,可以预测某些事件的结果为50/50,那么通过积分并取平均值,平均损失将为:L = 0.5
如果您要预测的是可重复的点,那么完美模型的损失会更低。因此,例如,假设有了足够的信息,一个完美的模型就能够预测一个事件的结果,其中在所有可能的事件中,最坏的说法是“此事件将以90%的概率发生”,那么平均损失将为L = 0.18 。
如果概率分布不均匀,也存在差异。
因此,在回答您的问题时,答案是“这取决于您要预测的内容的性质”
我会说标准的统计答案是将其与仅拦截模型进行比较。(这处理了其他答案中提到的不平衡类),参见mcFadden的伪r ^ 2。 https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-what-are-pseudo-r-squareds/
现在的问题是最大值是多少。从根本上讲,问题在于事件的概率在事件模型之外是不确定的。我建议的方式是,将测试数据汇总到一定水平,以获取概率估计值。然后计算该估计值的对数损失。
例如,您要基于(web_site,ad_id,consumer_id)预测点击率,然后将点击次数,展示次数汇总到例如web_site级别,并在每个网站的测试集上计算点击率。然后使用这些测试点击率作为预测来计算测试数据集的log_loss。这是仅使用网站ID的模型对测试集的最佳对数损失。问题是,我们可以通过添加更多功能,直到每条记录被唯一标识,来使损失降到我们想要的程度。