预测性能更多地取决于数据分析师的专业知识,而不是方法?


14

我曾经谣传过一些研究表明,预测模型的性能更多地取决于使用所选方法的数据分析师的专业知识,而不是方法的选择。
换句话说,声称从更理论的角度来看,数据分析人员熟悉所选方法比该方法对问题的“合适性”显得更为重要。

这是在化学计量学的背景下提到的,它通常涉及许多变量(100s-1000s),多重共线性,当然样品太少的问题。预测可能是分类或回归。

我的个人经验表明,这是有道理的,但是有人提到了一项研究(我通过快速但不成功的搜索通过电子邮件问到提到这一点的人,但从未收到任何答复)。但是,通过更精细的搜索,我也无法找到任何论文。

有人知道这样的发现吗?如果没有,这里的大佬们的亲身经历怎么说?


1
我更多的是小家伙在这里,但我已经看到了神经网络的支持这一假说:远远不是一个“开箱即用”的工具,其中“机器学习”的东西,成功的分类或预测似乎取决于一个很多关于如何聪明的人,告诉网络如何从数据中学习-最重要的是数据预处理方面,而且在网络架构等方面
斯蒂芬Kolassa

1
我认为这是《统计学习的要素》中的图2.4,在图中他们将最接近的邻居与年龄类型的方法进行了比较(当然,他们在本书中也提供了多个比较点)。
StasK 2013年

@StasK:感谢您的提醒(不记得我感到羞耻)。他们还报告说,在实践中,PCR,PLS和岭回归非常相似,LDA和逻辑回归也非常相似。但是,从理论上讲,后一种方法也非常相似。
cbeleites支持Monica

Answers:


1

实际上,我听说有一个传言说,像样的学习机器通常比专家更好,因为人的倾向是为了以减少偏差(过度平滑)为代价来最大程度地减少方差,从而导致新数据集的预测性能较差机器经过校准以最小化MSE,因此就新数据集的预测而言,往往会做得更好。


1
根据我的经验,人类确实会过度适应。但是,以我的经验,您还需要一位体面的专家来选择不适合自己的学习机。否则,有人会选择适合的学习机。
cbeleites支持Monica

1
除非您非常限制模型,否则MSE通常不会避免过度拟合-专家再次出现。然而,人们试图优化例如模型超参数。除非您可以为每次迭代提供一套全新的独立测试数据,否则特别是迭代优化策略会过度拟合(是否需要MSE)。也许我应该说我来自测试用例很少的领域。而且,无论如何,您都可能认为这不是一个不错的学习机器。
cbeleites支持Monica
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.