Answers:
结果表明,无论使用哪种方法,都可以合理地接近最佳决策规则(也称为贝叶斯规则)。根本原因已在Hastie,Tibshirani和Friedman的“统计学习要素”中进行了解释。他们通过比较图1和图2展示了不同方法的性能。2.1、2.2、2.3、5.11(在我的第一版中,在多维样条线上),12.2、12.3(支持向量机),以及其他一些可能。如果你还没有读过那本书,你需要放下一切,现在,右键和阅读它。(我的意思是,丢掉工作是不值得的,但是如果您是一名学生,则值得错过一两个家庭作业。)
我认为观察与变比不是解释。根据以上提供的基本原理,您尝试使用的所有方法都能够识别出多维空间中分隔类的边界的相对简单形式。
正如@ seanv507所建议的,类似的性能可能仅是由于数据被线性模型最好地分离了。但是总的来说,这是因为“可变比率观测值如此之高”的说法是不正确的。即使您的样本数量与变量数量之比达到无穷大,也不应期望不同的模型表现几乎相同,除非它们都提供相同的预测偏差。
我猜这是因为我对可变比率的观察如此之高。
我认为这种解释是完全合理的。
如果这是正确的,那么在不同的观察变量比率下,不同的模型将开始产生不同的结果?
这可能很大程度上取决于您的特定数据(例如,即使您的九个变量是连续的,因子,普通还是二进制的),以及您在拟合模型时所做的任何调整决策。
但是您可以使用观测值与变量的比率-不必通过增加变量的数量,而可以通过减少观测值的数量。随机抽取100个观察值,拟合模型,并查看不同的模型是否产生不同的结果。(我想他们会的。)对从您的观测总数中抽取的不同样本进行多次此操作。然后查看1,000个观测值的子样本... 10,000个观测值...等等。