线性分类器过度拟合


10

今天,我们的教授在课堂上说:“不可能过度拟合线性分类器”。我认为这是错误的,因为即使线性分类器也可能对训练集中的离群值敏感-以硬边距支持向量机为例:一个嘈杂的数据点可以更改将使用哪个超平面来分离数据集。还是我错了?显然,由于模型复杂度较低,线性可能会防止过度拟合,但我仍然不明白为什么过度拟合是不可能的。还有一点是,当我试图考虑这个问题时,我意识到“过拟合”似乎没有被正式定义。这是为什么?训练和测试集性能之间的某种距离度量是否可以使这种形式化?谢谢


4
为什么说线性分类器?大多数线性模型用于预测,而非分类。您是对的-线性模型很容易过度拟合。虽然不如机器学习方法那么多,但是过度拟合仍然是一个问题。
Frank Harrell

5
过度拟合线性分类器非常容易。只需将模型拟合到某些数据集(嘈杂的现实世界)即可,不要使用任何正则化方法。
弗拉迪斯拉夫(Vladislavs Dovgalecs)

2
提防分类-通常无需放低视线。
Frank Harrell

2
@FrankHarrell ...为什么?
Pugl

1
是的,如果最初是二进制的。如果Y原本是连续的,那么分类就更成问题了。ÿÿ
Frank Harrell,2015年

Answers:


12

如果不加注意的话,线性回归/分类器绝对是过拟合的。

这是一个小例子。让我们创建两个向量,第一个是简单的随机硬币翻转:5000

set.seed(154)
N <- 5000
y <- rbinom(N, 1, .5)

第二个向量是观测值,每个观测值随机分配给500个随机类别之一:5000500

N.classes <- 500
rand.class <- factor(sample(1:N.classes, N, replace=TRUE))

我们的翻转y和随机类之间应该没有任何关系rand.class,它们是完全独立确定的。

但是,如果我们尝试使用逻辑回归(线性分类器)来预测随机类别的随机翻转,那么它肯定会认为存在某种关系

M <- glm(y ~ rand.class, family="binomial")
hist(coef(M), breaks=50)

在此处输入图片说明

这些系数中每一个的真实值为零。但是,正如您所看到的,我们的传播非常广泛。这个线性分类器肯定是过拟合的。

-1515y == 1y == 015

“过度拟合”似乎没有被正式定义。这是为什么?

在具有某些复杂性参数的一模型的上下文中,可以最好地理解过度拟合。在这种情况下,当稍微降低复杂度会导致更好的预期样本外性能时,可以说模型是过拟合的。

以模型独立的方式精确定义概念非常困难。单个模型是合适的,您需要进行一些比较以使其适合或不合适。在我上面的示例中,这种比较是与真相进行的,但是您通常不知道真相,因此是模型!

训练和测试集性能之间的某种距离度量是否可以使这种形式化?

有一个这样的概念,叫做乐观主义。它的定义是:

ω=Ë测试-Ë培养

Ë

它不完全得到的,虽然过学习的本质,因为在测试组的性能可能比火车更差了不少,即使更高的复杂模型递减两种


哇,好答案,非常感谢。一个问题:线性SVM是否比log更不容易过拟合。您提到的回归(由于优化线性决策边界的方法不同)?
Pugl 2015年

1
我必须承认,我不是SVM的专家,并且缺乏使用SVM的实践经验。我真的不想冒险回答并冒错的风险。如果您可以精确地表述它,那么它本身就值得一个问题。
马修·德鲁里

SVM已规范化,因此不太容易过拟合。为了认识到您只需要查看要最小化的函数:它包括权重的l1范数或l2范数,在优化中将它们缩小,因此更喜欢“简单”模型而不是“复杂”模型。控制它的参数是C hyper参数。在极限情况下(C =无穷大),SVM“完全”适合训练集,因此它可能过拟合(请注意,我说过,可能需要确定一个测试集!)。另请注意,我使用了很多引号,但是可以正确定义。
skd 2015年

2

在上世纪70年代,对大型数据集进行模式识别算法的实验表明,在某些情况下添加额外的功能确实会增加测试集的错误率。这是相反的直觉,因为人们希望添加额外的功能始终会提高分类器的性能,或者如果添加的功能是“白噪声”,则添加它根本不会影响分类器的性能。向分类器添加更多额外功能,最终导致测试集性能下降的效果被称为峰值现象 [1]。

特征峰值是由学习过程中的过度概括引起的。额外的功能会导致包含太多额外的参数,从而使分类器开始过度拟合数据。因此,通过了峰值点

通常,在训练分类器时,我们会面临偏差方差的折衷。我们使用的特征变量越多,我们的分类器可能会更好地建模(未知)基础分类器机制。因此,拟合模型和“真相”之间的系统偏差将减小,即偏差较小。另一方面,增加分类器的特征空间必然意味着要添加参数(适合所添加特征的参数)。因此,拟合的分类器的方差也增加。

因此,超越峰值的分类器只是高维分类问题的一种随机实现,而新的拟合将导致参数向量高度不同。这一事实反映出方差增加。

[1。GV Trunk,“维度问题:一个简单示例”,在IEEE Transactions on Pattern Analysis and Machine Intelligence,vol。1中。PAMI-1,不。3,第306-307页,1979年7月]


1

我认为过度拟合是指模型的复杂性,而不是泛化能力。我理解报价“线性分类器不能过拟合”,因为它的复杂性很小,并且没有其他更简单的分类器可以提供更好的性能。

该示例与线性分类器(和复杂分类器)的泛化能力有关。即使在第二部分中,线性分类器通常也比复杂分类器提供较少的方差,因此,遵循此概念,线性分类器的“过拟合”值也较小(尽管它们的经验风险可能很大)。atb


0

就像@ match-maker-ee所说的那样,线性分类器可能会因输入特征而过度拟合。

以下模型f的参数abc是线性的,但可以拟合为x的特征空间中的二次曲线:

FX=一个X2+bX+C

SVM也可能过拟合,例如,当它们使用内核技巧时,尽管基本上是增强功能空间中的线性模型。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.