Questions tagged «out-of-sample»

指的是在一些未用于模型构建的“测试”或“保持”或“样本外”数据集上评估模型性能的实践。

8
如何帮助确保测试数据不会泄漏到训练数据中?
假设我们有一个人建立了预测模型,但是不一定有人对适当的统计或机器学习原理很精通。也许我们正在帮助那个人在学习中,或者那个人正在使用某种需要最少知识的软件包。 现在,这个人可能会很好地认识到真正的测试来自样本外数据的准确性(或其他任何度量标准)。但是,我担心的是,这里有很多微妙的问题要担心。在简单的情况下,他们建立模型并根据训练数据对其进行评估,并根据保留的测试数据对其进行评估。不幸的是,有时返回该位置并调整一些建模参数并检查相同“测试”数据的结果有时太容易了。此时,数据不再是真正的样本外数据,过拟合可能会成为问题。 解决此问题的一种可能方法是建议创建许多样本外数据集,以使每个测试数据集在使用后都可以丢弃,而根本无法再使用。但是,这需要大量的数据管理,尤其是必须在分析之前完成拆分(因此,您需要事先知道有多少拆分)。 也许更常规的方法是k倍交叉验证。但是,从某种意义上讲,我认为“训练”和“测试”数据集之间的区别会消失,特别是对于那些仍在学习的人。同样,我也不认为这对所有类型的预测模型都有意义。 有什么方法可以被我忽略,以帮助克服过度安装和测试泄漏的问题,同时仍然对没有经验的用户保持一定的了解?

4
《科学》杂志是否认可“分叉路径分析花园”?
自适应数据分析的思想是,随着您了解更多有关数据的信息,您将更改其分析计划。对于探索性数据分析(EDA),通常这是一个好主意(您经常在数据中寻找无法预料的模式),但是对于验证性研究,这被广泛认为是一种非常有缺陷的分析方法(除非所有步骤已明确定义,并已预先适当计划)。 话虽这么说,自适应数据分析是典型的许多研究人员实际上如何进行他们的分析,很多统计人员的不舍。这样,如果人们能够以一种统计有效的方式做到这一点,它将彻底改变统计实践。 以下《科学》杂志声称已经找到了一种方法(我对此深表歉意,但如果您在大学里,很可能可以使用):Dwork等人,2015年,可重用的保留:在自适应数据分析中保持有效性。 就我个人而言,我一直对《科学》杂志上发表的统计文章持怀疑态度,这一点也没有什么不同。实际上,在仔细阅读了文章(包括补充材料)两次之后,我根本无法理解(为什么)作者声称他们的方法可以防止过拟合。 我的理解是他们有一个保留数据集,可以重复使用。他们似乎声称通过对验证数据集上的确认分析输出进行“模糊处理”,从而避免了过度拟合(值得注意的是,如果对训练数据的计算统计数据足够模糊,则模糊处理似乎只是在增加噪声。根据对保留数据计算的统计信息)。据我所知,没有真正的理由可以防止过度拟合。 我是否误解了作者的提议?我忽略了一些微妙的影响吗?还是《科学》杂志 认可了迄今为止最糟糕的统计实践?

5
革命性的数据挖掘新方式?
以下摘录来自施瓦格的对冲基金市场风云作者(2012年5月),这是对一贯成功的对冲基金经理贾夫里·伍德里夫(Jaffray Woodriff)的采访: 问一个问题:“人们在数据挖掘中会犯哪些最严重的错误?”: 许多人认为他们还可以,因为他们使用样本内数据进行训练,而使用样本外数据进行测试。然后,他们根据对样本内数据的执行方式对模型进行排序,并选择最佳模型对样本外数据进行测试。人类的趋势是采用在样本外数据中继续表现良好的模型,然后选择那些模型进行交易。这种类型的过程只是将样本外数据转换为训练数据的一部分,因为它挑选了在样本外期间效果最好的模型。这是人们最常见的错误之一,也是通常应用数据挖掘产生可怕结果的原因之一。 然后,面试官问:“您应该怎么做?”: 您可以寻找平均而言所有样本外模型都能正常运行的模式。您知道,如果样本外模型的平均值占样本内分数的很大百分比,则您做得很好。一般而言,如果样本外结果超过样本内结果的50%,您的确可以得到帮助。如果SAS和IBM正在构建出色的预测建模软件,则QIM的业务模型将永远无法运作。 我的问题 这有意义吗?他什么意思?您是否有线索-甚至可能是提议方法的名称和一些参考资料?还是这个人找到了其他人都无法理解的圣杯?他甚至在这次采访中说,他的方法有可能彻底改变科学。

3
使用k折交叉验证时是否需要测试集?
我一直在阅读有关k折验证的信息,我想确保自己了解其工作原理。 我知道对于保持方法,数据分为三组,测试集仅在最后用于评估模型的性能,而验证集用于调整超参数等。 在k折方法中,我们是否仍然保留最后的测试集,仅将剩余数据用于训练和超参数调整,即我们将剩余数据分成k折,然后在训练后使用平均精度每折(或我们选择用来调整超参数的任何性能指标)?还是根本不使用单独的测试集,而是将整个数据集简单地分成k折(如果是这种情况,我假设我们只是将k折的平均准确度视为最终准确度)?

1
Kaggle的私人排行榜是否可以很好地预测获胜模型的样本外性能?
虽然不能使用私有测试集的结果进一步完善模型,但难道不是基于私有测试集的结果从大量模型中选择模型吗?您是否仅通过该过程就不会过度适合私有测试集? 根据 Bailey et.al的“伪数学和金融欺诈行为:回测过拟合对样本外性能的影响”。从同一数据集上评估的大量模型中选择最佳模型时,“过度拟合”相对容易。Kaggle的私人排行榜不是这样吗? 私有排行榜上表现最佳的模型是将最佳数据推广到样本外数据的模型,其统计依据是什么? 公司是否最终使用了获胜的模型,还是仅仅在私人排行榜上提供“游戏规则”,而公司实际上对讨论问题所产生的见解更感兴趣?

4
预测模型:统计数据可能无法击败机器学习吗?[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 2年前关闭。 我目前正在关注一个专注于统计/计量经济学的硕士课程。在我的主人看来,所有学生都必须进行3个月的研究。上周,所有小组都必须向其余的硕士生介绍他们的研究。 几乎每个小组都针对他们的研究主题进行了一些统计建模和一些机器学习建模,并且每一次样本外预测都谈到了简单的机器学习模型击败了非常复杂的统计模型,在过去的3个研究中,每个人都非常努力几个月。无论每个人的统计模型多么出色,一个简单的随机森林几乎总是会得到较低的样本外误差。 我想知道这是否是一个普遍接受的观察?那如果要进行样本外预测,就没有办法击败简单的随机森林或极端梯度增强模型吗?这两种方法使用R包实现起来非常简单,而每个人都想出的所有统计模型都需要大量的技能,知识和精力来进行估算。 您对此有何看法?统计/计量经济学模型的唯一好处是您可以获得解释吗?还是我们的模型不够好,以至于它们不能明显胜过简单的随机森林预测?有没有解决这个问题的论文?



4
创建保留集的更合适方法是:删除某些主题或从每个主题中删除一些观测值?
我有一个包含26个要素和31000行的数据集。它是38个主题的数据集。它用于生物识别系统。因此,我希望能够确定主题。 为了进行测试,我知道必须删除一些值。 那么,什么更好呢?为什么呢? (a)保留30个科目作为训练集,并删除8个科目作为测试集 (b)保留38个主题,但删除每个主题的一些行。因此,最后我将得到一个训练集:24800行38个主题,以及一个测试集:6200行38个主题

1
使用随机森林进行建模是否需要交叉验证?
据我所见,人们对此的看法往往有所不同。最佳实践肯定会规定使用交叉验证(尤其是将RF与同一数据集上的其他算法进行比较时)。另一方面,原始消息来源指出,在模型训练期间计算出OOB误差这一事实足以说明测试集的性能。甚至特雷弗·哈斯提(Trevor Hastie)在最近的一次对话中都说“随机森林提供免费的交叉验证”。直观上,如果在一个数据集上训练并尝试改进基于RF的模型,这对我来说很有意义。 您对此有何看法?

2
不能改善样本外预测的“显着变量”-如何解释?
我有一个问题,我认为这对很多用户来说都是非常基本的。 我使用线性回归模型来(i)研究几个解释变量与我的反应变量之间的关系,以及(ii)使用解释变量预测我的反应变量。 一个特定的解释变量X似乎对我的响应变量有显着影响。为了测试此解释变量X的增加值,以便对我的响应变量进行样本外预测,我使用了两个模型:模型(a)使用所有解释变量,模型(b)使用所有变量除了变量X。对于这两个模型,我仅报告样本外性能。看起来两个模型的性能几乎一样好。换句话说,添加解释变量X不会改善样本外预测。请注意,我还使用模型(a)(即具有所有解释变量的模型)来发现,解释变量X确实会严重影响我的响应变量。 我现在的问题是:如何解释这一发现?直截了当的结论是,即使变量X似乎使用推论模型显着影响了我的响应变量,但它并不能改善样本外预测。但是,我很难进一步解释这一发现。这怎么可能?对此发现有何解释? 提前致谢! 额外信息:具有“显着影响”是指参数估计的最高95%后验密度间隔中不包含0(即使用贝叶斯方法)。用常客的话来说,这大致对应于p值小于0.05。我仅对所有模型参数使用扩散(无信息)先验。我的数据具有纵向结构,总共包含大约7000个观测值。对于样本外预测,我使用90%的数据来拟合模型,并使用10%的数据使用多次复制来评估模型。也就是说,我多次进行了火车测试拆分,并最终报告了平均性能指标。

1
如何计算出样本R平方?
我知道这可能已经在其他地方讨论过了,但是我还没有找到明确的答案。我正在尝试使用公式计算线性回归模型的样本外,其中是残差平方的总和,而是平方总和。对于训练集,很明显R 2 S S R S S T[R2= 1 - S小号[R /小号小号Ť[R2=1个-小号小号[R/小号小号ŤR^2 = 1 - SSR/SST[R2[R2R^2小号小号[R小号小号[RSSR小号小号Ť小号小号ŤSST 小号小号Ť= ∑(y- ÿ¯吨ř 一个我Ñ)2小号小号Ť=Σ(ÿ-ÿ¯Ť[R一个一世ñ)2 SST = \Sigma (y - \bar{y}_{train})^2 那测试集呢?我应该继续使用来代替样本还是使用?ý ˉ ý吨Ë小号吨ÿ¯吨ř 一个我Ñÿ¯Ť[R一个一世ñ\bar{y}_{train}ÿÿyÿ¯牛逼Ë 小号ŧÿ¯ŤËsŤ\bar{y}_{test} 我发现如果我使用,则有时生成的可能为负。这与sklearn 函数的描述一致,他们使用(他们的linear_model 函数也使用它来测试样本)。他们指出“不管输入特征如何,始终预测y期望值的恒定模型将获得0.0的R ^ 2得分。”- [R2 ˉ ý吨Ë小号吨ÿ¯牛逼Ë 小号ŧÿ¯ŤËsŤ\bar{y}_{test}[R2[R2R^2r2_score()ÿ¯牛逼Ë 小号ŧÿ¯ŤËsŤ\bar{y}_{test}score() 但是,在其他地方,人们喜欢在这里和这里使用(dmi3kno的第二个答案)。所以我想知道哪个更有意义?任何评论将不胜感激!ÿ¯吨ř 一个我Ñÿ¯Ť[R一个一世ñ\bar{y}_{train}
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.