我曾经谣传过一些研究表明,预测模型的性能更多地取决于使用所选方法的数据分析师的专业知识,而不是方法的选择。
换句话说,声称从更理论的角度来看,数据分析人员熟悉所选方法比该方法对问题的“合适性”显得更为重要。
这是在化学计量学的背景下提到的,它通常涉及许多变量(100s-1000s),多重共线性,当然样品太少的问题。预测可能是分类或回归。
我的个人经验表明,这是有道理的,但是有人提到了一项研究(我通过快速但不成功的搜索通过电子邮件问到提到这一点的人,但从未收到任何答复)。但是,通过更精细的搜索,我也无法找到任何论文。
有人知道这样的发现吗?如果没有,这里的大佬们的亲身经历怎么说?
1
我更多的是小家伙在这里,但我已经看到了神经网络的支持这一假说:远远不是一个“开箱即用”的工具,其中“机器学习”的东西,成功的分类或预测似乎取决于一个很多关于如何聪明的人,告诉网络如何从数据中学习-最重要的是数据预处理方面,而且在网络架构等方面
—
斯蒂芬Kolassa
我认为这是《统计学习的要素》中的图2.4,在该图中他们将最接近的邻居与年龄类型的方法进行了比较(当然,他们在本书中也提供了多个比较点)。
—
StasK 2013年
@StasK:感谢您的提醒(不记得我感到羞耻)。他们还报告说,在实践中,PCR,PLS和岭回归非常相似,LDA和逻辑回归也非常相似。但是,从理论上讲,后一种方法也非常相似。
—
cbeleites支持Monica