将数据分为测试和训练集纯粹是一种“统计”事情吗?


11

我是一名学习机器学习/数据科学的物理专业学生,所以我并不是要这个问题引起任何冲突:)但是,任何物理本科课程的很大一部分都是做实验室/实验,这意味着很多数据处理和统计分析。但是,我注意到物理学家处理数据的方式与我的数据科学/统计学习书籍处理数据的方式之间存在巨大差异。

关键区别在于,当尝试对从物理实验获得的数据进行回归时,将回归算法应用于WHOLE数据集,因此绝对不会拆分为训练集和测试集。在物理学世界中,基于整个数据集为模型计算R ^ 2或某种类型的伪R ^ 2。在统计世界中,几乎总是将数据分为80-20、70-30等...,然后根据测试数据集对模型进行评估。

还有一些重大的物理实验(ATLAS,BICEP2等)从未进行过数据拆分,所以我想知道为什么物理学家/实验学家进行统计的方式与数据科学家的方式之间存在如此严格的差异做统计。


1
(+1)个很好的问题(我没有时间正确回答)。评论:物理学具有“真实实验”的奢华;一般控制/实验室条件,主要是明确定义的结果/变量和假定的可重复性。通常的公共卫生/计量经济学/调查统计项目(仅提及几个明显的子领域)只是不明白这一点。混淆,季节性(时间依赖性)和通常的概念漂移在统计中非常普遍,因此这种“数据拆分”是防止完全愚蠢的结果的明显方法之一。另外,并非所有估算器的创建效率都相同。:)
usεr11852

3
您将在斯坦福大学统计教授David Donoho的最新讨论文件中找到大量相关的讨论和背景知识:courses.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf特别参见“预测文化”的讨论与传统的统计数据相比。
Gordon Smyth'7

1
我认为这是“在没有理论的情况下的预测”,这是“统计”的一小部分,也是机器学习的一大部分。
Laconic'7

统计人员也不会拆分数据(p <.05)
rep_ho

@rep_ho一些(也许很多)统计学家参与样本不重要预测的情况非常重要(有些人做了很长时间)。诸如交叉验证和遗忘统计等想法已经存在了很长时间。不过,统计学家往往不会分裂一次,除非那是不可避免的。这可能取决于您与哪位统计学家交谈
Glen_b -Resstate Monica

Answers:


6

并非所有统计过程都分为训练/测试数据,也称为“交叉验证”(尽管整个过程所涉及的范围不止于此)。

相反,这是一种专门用于估计样本外误差的技术。也就是说,您的模型使用新数据集预测新结果的效果如何?例如,当您拥有相对于数据集中样本数量而言非常多的预测变量时,这将成为一个非常重要的问题。在这种情况下,构建具有很大的样本内误差但可怕的样本外误差(称为“过度拟合”)的模型真的很容易。在同时具有大量预测变量和大量样本的情况下,交叉验证是帮助评估模型对新数据进行预测时表现良好的必要工具。在竞争性预测模型之间进行选择时,它也是重要的工具。

另一方面,在尝试建立预测模型时,几乎总是使用交叉验证。通常,当您试图估计某些处理的效果时,它对模型不是很有帮助。例如,如果要比较材料A和B之间的拉伸强度分布(“处理”是材料类型),则不需要交叉验证;尽管我们确实希望我们对治疗效果的估计能从样本中得出,但是对于大多数问题,经典统计理论比交叉验证能准确地回答这一问题(即估计的“标准误”)。不幸的是,经典统计方法1对于标准误差,在过拟合的情况下不成立。在这种情况下,交叉验证通常会做得更好。

另一方面,如果您要根据10,000个测量变量预测材料何时破裂,这些变量将根据100,000个观测值放入某个机器学习模型中,那么在没有交叉验证的情况下构建大型模型会遇到很多麻烦!

我猜想在完成的许多物理实验中,您通常对效果的估计感兴趣。在这些情况下,几乎不需要交叉验证。

1有人可能会说具有先验信息的贝叶斯方法是解决过度拟合的经典统计方法。但这是另一个讨论。

旁注:虽然交叉验证最早出现在统计文献中,并且肯定被自称为统计学家的人们使用,但它已成为机器学习社区中基本的必需工具。许多统计模型无需交叉验证即可很好地工作,但是几乎所有被认为是“机器学习预测模型”的模型都需要交叉验证,因为它们经常需要选择调整参数,如果没有交叉验证,这几乎是不可能的。 -验证。


ñp

@usεr11852:是的,但是要在没有交叉验证的情况下选择合理的正则化惩罚几乎是不可能的(除了考虑像贝叶斯先验那样的惩罚,但这对于黑匣子模型来说很难!)。虽然我们确实希望将A与B进行比较的结果不包含在样本中,但这通常不是一个需要模型调整的问题(就像预测经常如此),并且由于参数数量相对较少,经典统计理论可以解决这个问题无需使用交叉验证。
Cliff AB

这是一个循环参数,正则化使用交叉验证,但是交叉验证是针对正则化完成的。这就是为什么我开始对此有所评论的原因。我认为统计推断/因果关系偏离了这种非模型调整方法(例如,参见2016 Johansson等人的“学习反事实推理的表示法”-如此凌乱的漂亮论文)。最后,当基础物理研究遇到困难时,也可以依靠机器学习(例如希格斯玻色子机器学习挑战)方法。
usεr11852

@usεr11852正则化不“使用”交叉验证,而是使用交叉验证来选择用于正则化的调整参数。例如,有关完整过程的详细信息,请参见glmentcv.glmnet
Cliff AB

1
另外,我从未宣称物理学研究不能使用机器学习方法,也不能进行交叉验证!我只是在解释交叉验证通常专门用于在预测模型中的复杂模型/调整参数之间进行选择,并且在许多经典的物理实验中,交叉验证不是必需的。因此,物理学家对数据的处理不一定与统计学家对数据的处理相矛盾,我认为这是《 OP》问题的核心。
悬崖AB

3

作为(分析)化学家,我遇到两种方法:品质因数的分析计算(主要用于单变量回归)以及预测品质因数的直接测量。
对我而言,火车/测试是对衡量预测质量的验证实验的“小弟弟”。


长答案:

我们进行的典型实验(例如,本科物理化学)使用单变量回归。感兴趣的属性通常是模型参数,例如测量反应动力学时的时间常数,但有时也是预测(例如用于预测/测量感兴趣值的单变量线性校准)。
在不过度拟合的情况下,这些情况非常好:在估计所有参数后通常会留下一个舒适的自由度,并且它们被用来训练(如在教育中)具有经典置信度或预测区间计算以及经典误差的学生传播-它们是针对这些情况而开发的。即使情况并非完全像教科书一样(例如,我在数据中具有结构,例如在动力学中,我希望通过反应之间的差异+两次测量之间的差异来更好地描述数据。单纯的单方差方法),我通常可以进行足够的实验来获得有用的结果。

pññ<pñññdF,经典方法不起作用。但是,由于我主要在做预测,所以我总是非常有可能测量我的模型的预测能力:我做预测,并将其与参考值进行比较。

这种方法实际上非常强大(尽管由于增加了实验工作而成本很高),因为它使我也可以针对训练/校准数据中未涵盖的情况探究预测质量。例如,我可以测量推断质量如何通过外推法恶化(外推还包括例如在获得训练数据后一个月进行的测量),我可以针对我认为重要的混杂因素探究坚固性,等等。 ,我们可以像研究其他任何系统的行为一样研究模型的行为:我们探究某些点或对其进行扰动并查看系统答案的变化等。

我想说的是,预测质量越重要(且过度拟合的风险越高),我们倾向于倾向于直接测量预测质量而不是分析得出的数字。(当然,我们可以将所有这些混杂因素也包括在训练实验的设计中)。某些领域,例如医学诊断,要求在对实际患者“放宽”模型之前进行适当的验证研究。

训练/测试拆分(无论是坚持*还是交叉验证还是超出引导程序还是...)使这一步骤变得容易了。我们保存了额外的实验,并且不作推断(我们只推广到预测训练数据分布完全相同的未知独立案例)。我将其描述为一种验证,而不是验证(尽管验证在这里是术语的深层内容)。如果对品质因数的精度要求不高,通常这是一种务实的做法(在概念验证的情况下可能不需要非常精确地知道它们)。

* 不要将随机分为训练和测试与适当设计的研究相混淆以测量预测质量。


2
+1指出验证和确认的差异。
预报员
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.