均方误差可以用于分类吗?


14

我知道均方误差公式以及如何计算。当我们谈论回归时,我们可以计算均方误差。但是,我们能否谈谈针对分类问题的MSE,以及如何计算它?

Answers:


12

许多分类器可以预测连续得分。通常,连续分数是中间结果,仅在分类的最后一步才转换为类别标签(通常按阈值)。在其他情况下,例如,可以计算类成员的后验概率(例如,判别分析,逻辑回归)。您可以使用这些连续得分而不是类别标签来计算MSE。这样做的好处是避免了由于二分法导致的信息丢失。
当连续得分是概率时,MSE指标称为Brier得分。

但是,也存在分类问题,它们是变相的回归问题。在我的领域中,例如可以根据某种物质的浓度是否超过法律限制对案件进行分类(这是二元/区分性两类问题)。在这里,由于任务的潜在回归特性,MSE是自然选择。

在本文中,我们将其作为更通用的框架的一部分进行解释: C. Beleites,R。Salzer和V. Sergo:
使用部分类成员资格的软分类模型的验证:Sensitivity&Co.的扩展概念应用于星形细胞瘤组织的分级。
Chemom。智力 实验室 Syst。,122(2013),12-22。

如何计算它:如果您使用R语言,则一个实现位于软件包“ softclassval”中,http:/softclassval.r-forge.r-project.org。


@ seanv507:非常感谢!
cbeleites不满意SX

1

我不太清楚如何...成功的分类是一个二进制变量(正确与否),因此很难看到要平方的平方。

通常,将根据训练集估算的分类应用于较早放置的测试集时,将根据正确率等指标来衡量分类。

均方误差当然可以(并且已经)针对连续变量的预测值或预测值进行计算,但我认为并非针对分类。


0

对于概率估计您可能不希望计算MSE,而是要计算可能性:π^

大号=一世π^一世ÿ一世1个-π^一世1个-ÿ一世

这种可能性是针对二进制响应的,假定它具有伯努利分布。

如果取对数然后取反,则将得到逻辑损失,这是当您具有二进制响应时的MSE类似物。特别地,MSE是假设具有正态分布的连续响应的负对数似然。大号


0

从技术上讲可以,但是对于二进制分类,MSE函数是非凸的。因此,如果使用MSE Cost函数训练二进制分类模型,则不能保证将Cost函数最小化。同样,将MSE用作成本函数时,假定了高斯分布,而不是二进制分类。


1
MSE为什么要采用高斯分布?(与最小二乘回归相反,使用MSE作为损失,我们可以证明它对于具有正态分布残差的回归问题是最佳的)
塞贝莱特人对SX不满意

它不是二进制分类的最佳选择,而是回归的最佳选择。问题是二进制的。
59

问题不在于二进制分类。它甚至没有说歧视性分类。而且,它不会询问最优性(您甚至还需要使用MSE来询问最优性(甚至比说2类的二进制或判别式还要更具体地说明情况)。同样,Brier的分数是严格适合预测的评分规则,因此,对非最优性进行更详细的说明无疑会有所帮助(并且可能会在何时应用这种非最优性方面很有启发性)。
cbeleites不满意SX
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.