为什么几种类型的模型会给出几乎相同的结果?


10

我一直在分析约40万条记录和9个变量的数据集。因变量是二进制。我已经安装了逻辑回归,回归树,随机森林和梯度增强树。当我在另一个数据集上验证拟合值时,它们全都具有拟合值的虚拟相同优势。

为什么会这样呢?我猜这是因为我对可变比率的观察如此之高。如果这是正确的,那么在不同的观察变量比率下,不同的模型将开始产生不同的结果?

Answers:


7

结果表明,无论使用哪种方法,都可以合理地接近最佳决策规则(也称为贝叶斯规则)。根本原因已在Hastie,Tibshirani和Friedman的“统计学习要素”中进行了解释。他们通过比较图1和图2展示了不同方法的性能。2.1、2.2、2.3、5.11(在我的第一版中,在多维样条线上),12.2、12.3(支持向量机),以及其他一些可能。如果你还没有读过那本书,你需要放下一切,现在,右键和阅读它。(我的意思是,丢掉工作是不值得的,但是如果您是一名学生,则值得错过一两个家庭作业。)

我认为观察与变比不是解释。根据以上提供的基本原理,您尝试使用的所有方法都能够识别出多维空间中分隔类的边界的相对简单形式。


我会问我的老板,是否可以让公司付款。
JenSCDC 2014年

1
ESL是从其主页上的pdf文件“免费” ...也值得下载的是ISL(由许多相同的作者撰写)-更实用的www-bcf.usc.edu/~gareth/ISL
seanv507 2014年

4

值得一提的还有训练方面的错误。

基本上我不同意你的分析。如果逻辑回归等都给出相同的结果,则表明“最佳模型”是一个非常简单的模型(所有模型都可以很好地拟合-例如基本上是线性的)。

因此,问题可能是为什么最好的模型为什么是简单的模型?:这可能表明您的变量不是非常可预测的。当然,不了解数据就很难分析。


1

正如@ seanv507所建议的,类似的性能可能仅是由于数据被线性模型最好地分离了。但是总的来说,这是因为“可变比率观测值如此之高”的说法是不正确的。即使您的样本数量与变量数量之比达到无穷大,也不应期望不同的模型表现几乎相同,除非它们都提供相同的预测偏差。


我刚刚编辑了我的问题,以添加因变量是二进制的。因此,线性模型不适合。
JenSCDC 2014年

“除非所有模型都提供相同的预测偏差,否则不应期望它们具有几乎相同的性能。” 我使用MAE和实际结果与预测结果的比率作为验证指标,并且该比率非常接近。
JenSCDC 2014年

1
安迪,我将逻辑回归(和线性SVM)作为“线性”模型。它们都只是通过输入的加权总和来分离数据。
seanv507

1
@ seanv507准确-决策边界仍然是线性的。执行二进制分类的事实不会改变这一点。
bogatron

树木呢?在我看来,它们确实并不线性。
JenSCDC 2014年

0

我猜这是因为我对可变比率的观察如此之高。

我认为这种解释是完全合理的。

如果这是正确的,那么在不同的观察变量比率下,不同的模型将开始产生不同的结果?

这可能很大程度上取决于您的特定数据(例如,即使您的九个变量是连续的,因子,普通还是二进制的),以及您在拟合模型时所做的任何调整决策。

但是您可以使用观测值与变量的比率-不必通过增加变量的数量,而可以通过减少观测值的数量。随机抽取100个观察值,拟合模型,并查看不同的模型是否产生不同的结果。(我想他们会的。)对从您的观测总数中抽取的不同样本进行多次此操作。然后查看1,000个观测值的子样本... 10,000个观测值...等等。


1
嗯,为什么呢?更多的观察似乎增加了决策边界更复杂的机会-即绝对不是线性的。这些模型在复杂的情况下会做不同的事情,而在简单的情况下往往会做同样的事情。
肖恩·欧文

@SeanOwen:我想我不理解你的评论。我的答案的哪一部分指“为什么”?OP对使用线性决策边界一无所知-毕竟,他可能会通过某种方式转换预测变量。
Stephan Kolassa 2014年

为什么会有更多的观察结果使不同的分类器做出更多类似的决定?我的直觉是相反的。是的,我不是在考虑线性决策边界。最佳边界越复杂,它们都不可能适合与该边界相似的内容。边界越趋于复杂,观察更多。
肖恩·欧文
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.