预测是判断统计学家能力的“黄金标准”吗?


13

上周末,我正在阅读Faraway的带有R(第一版)的线性模型教科书。Faraway有一章称为“统计策略和模型不确定性”。他描述(第158页)时,他使用非常复杂的模型人工生成了一些数据,然后要求学生对数据进行建模,并将学生的预测结果读取结果进行比较。不幸的是,大多数学生过度拟合了测试数据,并给出了完全超出预期的预测值。为了解释这种现象,他给我写了一些令人印象深刻的话:

“模型之所以如此不同,是因为学生以不同的顺序应用了各种方法。有些人在变换之前进行了变量选择,而另一些则相反。有些人在模型更改后重复了一种方法,而其他人则没有。我研究了这些策略那几个用于学生和找不到什么明显的错误与他们所做的一切。有一个学生在计算犯了错误他或她的预测值,但没有什么明显错误的其余部分。在这个任务中的表现并没有表现出与考试有任何关系。

我受过教育,模型预测的准确性是我们选择最佳模型性能的“黄金标准”。如果我没记错的话,这也是Kaggle比赛中常用的方法。但是在这里Faraway观察到了一些不同的性质,即模型预测性能可能与无关具有相关统计人员的能力。换句话说,我们能否根据预测能力建立最佳模型并不能真正取决于我们的经验。相反,它取决于巨大的“模型不确定性”(运气不佳?)。我的问题是:在现实生活中的数据分析中也是如此吗?还是我对基本的东西感到困惑?因为如果这是真的,那么对真实数据分析的意义是巨大的:在不知道数据背后的“真实模型”的情况下,经验丰富/经验不足的统计学家所做的工作之间就没有本质的区别:两者都只是前面的疯狂猜测。可用的培训数据。


2
+1个好问题。为了提供另一个角度,一位分析师说知道真实的模式-那么她的预测可能也很糟糕!因此,即使知道真实的模型,您也会看到这一点。可能重要的是Haggerty and Srivinasans 1991在Psychometrika中的观察结果,“结论为具有较高预测准确性的模型为“ truer”的实践并非有效推论”。
Momo 2015年

1
我还没有看过这本书,但是“变量选择”和“转换”已经敲响了警钟。请参见自动模型选择算法预测变量与相依关系之间的关系性质。我也不会将统计学专业学生的考试成绩与统计学家的实际工作能力混为一谈。
Scortchi-恢复莫妮卡

2
Faraway给出的这些信息似乎是奇闻轶事,可以用作有关统计领域的一般性原则的基础。我不想基于此类不可重现的示例构建有关预测建模的模型。他们也有可能被有意或无意地挑选了。
rolando2 2015年

3
可以从此轶事中得出的一个逻辑上有效的结论是,Faraway的学生还没有(但是)已经获得了在他的预测测试中表现出色所需的技能。很难将结果与您对经验丰富的统计学家可能会如何做出的猜测之间建立任何联系。
ub

@whuber:我不这么认为。我同意28名学生的人数有点小,但我确实认为这一实际观察结果会产生一些严重的影响。如果Faraway制作了真实的模型,并且他继续研究了几个学生的作品,就不会发现任何严重的错误,但是预测与实际情况相去甚远。然后,这说明了所涉及的“模型不确定性”,无论原始分析师的“经验”如何,至少需要一个单独的分析师来比较差异。我觉得这让我很震惊。
家蚕2015年

Answers:


1

我问了这个系的教授。他坦言说,他对此一点都不感到惊讶。他提出了以下解决方案:Faraway所做的只是一次实验,结果与最终成绩没有任何关系也就不足为奇了。但是,如果Faraway在同一组学生身上重复他的“实验” 100次,他确信这些学生学习到的统计数据会更好地表现出来,就像置信区间一样。因此,在他看来,经验确实很重要,由于模型的不确定性,这只是一次社会实验无法证明这一点。


我觉得这个借口好笑。我认为这就是为什么统计数据被“数据科学”所取代(或更名为“数据科学”)的原因。人们开始意识到,大学统计不是很擅长预测,而没有预测能力的模型则毫无用处。
Flounderer 2015年

1
@Flounderer:我认为这并不是真正的借口,您写的内容可能与本案并没有很好的联系。在现实生活中的大多数时候,第一时间既有测试集又有训练集,与Faraway的情况不同,只有一个训练集可用。其次,如果您看一下Faraway的模型,它是高度非线性的,因此回归方法不能很好地工作。因此,所有线性模型只是疯狂的猜测。实验的寓意是“所有模型都是错误的”,而不是“大学教授的统计数据不太擅长预测”。
家蚕2015年

@Flounderer:换句话说,我相信,如果我(或论坛中的其他任何人)在20年前面对这个奇怪的训练集时处于Faraway学生的位置,那么仅使用线性模型就不可能做得更好。我认为这根本与“大学统计”无关。
家蚕2015年

1

学生的模特几乎都是过拟合的。使用n个数据点,总是可以拟合n-1阶的理想多项式。这样的模型已经过期,没有留下任何随机误差。看来学生犯了类似的过拟合错误,但大概具有不同的功能。

过度拟合是一个错误,仅应由学生犯。这表明经验和教育是建模的必要条件。


2
“过拟合是一个错误,只能由学生犯”,这是一个很高的标准。建模很难。也许诸如“过度拟合是建模人员通过经验和教育来认识并避免的东西”会更接近真相吗?
马修·德鲁里
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.