Questions tagged «validation»

评估分析结果是否可能超出原始研究范围的过程。请勿使用此标签来讨论测量或仪器的“有效性”(例如,它测量其声称的内容),而应使用[validity]标签。

11
测试集和验证集有什么区别?
当我在Matlab中使用神经网络工具箱时,我感到困惑。 它将原始数据集分为三个部分: 训练集 验证集 测试集 我注意到在许多训练或学习算法中,数据通常分为训练集和测试集两部分。 我的问题是: 验证集和测试集有什么区别? 验证集是否真的特定于神经网络?或者它是可选的。 更进一步,在机器学习的上下文中,验证和测试之间有区别吗?

10
保持验证与交叉验证
在我看来,坚持验证是没有用的。也就是说,将原始数据集分为两部分(训练和测试)并将测试得分用作泛化度量,这是没有用的。 K折交叉验证似乎可以更好地概括(因为它在每个点上进行训练和测试)。那么,为什么我们要使用标准的保留验证?甚至谈论它?

2
如何从“大数据”中得出有效的结论?
媒体中到处都有“大数据”。每个人都说“大数据”是2012年的大事,例如KDNuggets对2012年的热门话题进行了民意测验。但是,我对此深表关切。有了大数据,每个人似乎都很高兴能拿出任何东西。但是,我们是否违反了所有经典的统计原理,例如假设检验和代表性抽样? 只要我们仅对同一数据集做出预测,就可以了。因此,如果我使用Twitter数据来预测Twitter用户的行为,那可能还可以。但是,使用Twitter数据预测例如选举完全忽略了Twitter用户并不是整个人口的代表性样本这一事实。另外,大多数方法实际上无法区分真正的“草根”情绪和运动。Twitter充满了竞选活动。因此,在分析Twitter时,您很快就会只测量活动和机器人。(例如,参见“雅虎预测美国的政治胜利者”这充满了民意测验,并且“情绪分析要好得多”。他们预测“罗姆尼赢得提名和赢得南卡罗来纳州初选的可能性超过90%”(他有28%,而金里奇在初选中有40%)。 您知道其他这样的大数据失败吗?我大概记得一位科学家曾预测您不能维持超过150个友谊。他实际上只发现了友友的上限... 至于推特数据,或者实际上是从网络上收集到的任何“大数据”,我相信人们通常会在收集数据的方式上引入额外的偏见。几乎没有Twitter的全部。他们将拥有一定的子集,这只是他们数据集中的另一个偏见。 将数据拆分到测试集中或进行交叉验证可能并没有太大帮助。另一组将具有相同的偏差。对于大数据,我需要大量“压缩”我的信息,以至于我不太可能过大。 我最近听到了这个笑话,大数据科学家发现世界上大约有6种性别……而我完全可以想象发生……“男,女,兽人,毛茸茸,是和否”。 那么,我们必须采用什么方法才能使统计信息重新回到分析中,特别是在尝试预测“大数据”数据集之外的数据时?

3
如何选择聚类方法?如何验证集群解决方案(以保证方法的选择)?
聚类分析的最大问题之一是,当基于使用的不同聚类方法(包括分层聚类中的不同链接方法)时,我们可能不得不得出不同的结论。 我想知道您对此的看法- 您将选择哪种方法以及如何选择。有人可能会说“最好的集群方法是为您提供正确的答案”;但我可能会回答,聚类分析应该是一种无监督的技术-那么我怎么知道哪种方法或链接是正确的答案? 总的来说:单独的集群是否足够强大才能依靠?还是我们需要第二种方法并获得基于这两种方法的共享结果? 我的问题不仅涉及验证/评估聚类性能的可能方法,而且涉及范围更广- 我们在什么基础上选择/优先于一种聚类方法/算法。另外,在选择一种对数据进行聚类的方法时,是否应该注意一些常见的警告? 我知道这是一个非常笼统的问题,很难回答。我只想知道您是否对我有任何意见或建议或建议,以了解更多信息。

4
交叉验证后如何使用“测试”数据集?
在我见过的一些讲座和教程中,他们建议将您的数据分为三个部分:培训,验证和测试。但是尚不清楚应如何使用测试数据集,也不清楚这种方法比整个数据集的交叉验证如何更好。 假设我们已经将20%的数据保存为测试集。然后,我们将其余部分分解为k折,然后使用交叉验证,找到可以对该数据集中的未知数据做出最佳预测的模型。假设我们发现的最佳模型可为我们提供75%的准确性。 各种问答网站上的各种教程和许多问题都表明,现在我们可以在保存的(测试)数据集中验证模型。但是我仍然不知道它是如何完成的,也没有意义。 假设我们在测试数据集上的准确性为70%。 那么我们下一步该怎么做?我们是否会尝试另一个模型,然后再尝试另一个模型,直到我们在测试数据集上获得高分?但是在这种情况下,实际上看起来我们只会找到适合我们有限的(仅20%)测试集的模型。这并不意味着我们会找到总体上最好的模型。 此外,如果仅根据有限的数据集计算该分数,我们如何将其视为模型的一般评估?如果该分数很低,则可能是我们很不幸并选择了“不良”测试数据。 另一方面,如果我们使用所拥有的所有数据,然后使用k倍交叉验证来选择模型,我们将找到对来自我们所拥有的整个数据集的未知数据进行最佳预测的模型。

2
最终(生产准备就绪)模型应该在完整数据上还是仅在训练集中进行训练?
假设我在训练集上训练了多个模型,请使用交叉验证集选择最佳模型,并在测试集上测量性能。所以现在我有了一个最终的最佳模型。我应该在所有可用数据上对其进行再培训还是仅在培训集中接受培训的船舶解决方案?如果是后者,那为什么呢? 更新:正如@ P.Windridge所指出的,交付经过重新训练的模型基本上意味着未经验证就交付了模型。但是我们可以报告测试集的性能,然后正确地在完整数据上对模型进行训练,以期期望性能更好-因为我们使用了最好的模型加上更多的数据。这种方法会引起什么问题?

4
作为审稿人,即使期刊没有,我是否可以要求提供数据和代码?
由于科学必须具有可复制性,因此根据定义,人们越来越认识到数据和代码是可复制性的重要组成部分,正如耶鲁圆桌会议针对数据和代码共享所讨论的那样。 在审阅不需要数据和代码共享的期刊的稿件时,我可以要求提供数据和代码吗? 在审查时对我 出版时公开发表(该杂志支持增刊) 另外,我该如何表达这样的要求? 更新:尽管我对一般情况感兴趣,但此特殊情况包括对所有以前发布的数据进行的荟萃分析,并且代码是SAS中的简单线性模型 边注:如果更多的研究提供原始数据,则进行交叉研究推断的能力(即荟萃分析的目标)将大大增强。 更新2: 我要求编辑提供数据和代码以供审核,编辑认为请求合理,并且我在一天之内就收到了所要求的材料(足够但带有隐含的变量名,没有元数据并且几乎没有内联注释)。

3
使用k折交叉验证时是否需要测试集?
我一直在阅读有关k折验证的信息,我想确保自己了解其工作原理。 我知道对于保持方法,数据分为三组,测试集仅在最后用于评估模型的性能,而验证集用于调整超参数等。 在k折方法中,我们是否仍然保留最后的测试集,仅将剩余数据用于训练和超参数调整,即我们将剩余数据分成k折,然后在训练后使用平均精度每折(或我们选择用来调整超参数的任何性能指标)?还是根本不使用单独的测试集,而是将整个数据集简单地分成k折(如果是这种情况,我假设我们只是将k折的平均准确度视为最终准确度)?

4
在交叉验证之外调整超参数有多糟糕?
我知道在交叉验证之外执行超参数调整会导致对外部有效性的偏高估计,因为您用来衡量性能的数据集与用于调整功能的数据集相同。 我想知道的是,这个问题有多严重。我可以理解,这对于选择功能真的很不利,因为这使您可以调整大量的参数。但是,如果您使用的是LASSO之类的东西(它只有一个参数,即正则化强度),或者是一个没有特征选择的随机森林(它可以具有一些参数,却没有添加/删除噪声特征那么引人注目)? 在这些情况下,您对培训误差的估计有多乐观? 我非常感谢您提供任何有关此方面的信息-案例研究,论文,文献数据等。谢谢! 编辑:为澄清起见,我不是在谈论在训练数据上评估模型性能(即根本不使用交叉验证)。“交叉验证之外的超参数调整”是指仅使用交叉验证来估计每个模型的性能,而不包括外部第二交叉验证循环来校正超参数调整过程中的过拟合(与在训练过程中过度安装)。请参见此处的答案。

2
贝叶斯关于过度拟合的思考
我花了很多时间来开发用于验证传统的频繁统计领域中的预测模型的方法和软件。将更多的贝叶斯思想付诸实践和教学时,我发现需要拥抱一些关键差异。首先,贝叶斯预测模型要求分析人员认真考虑可能针对候选特征进行定制的先验分布,这些先验将拉近模型(即,针对不同的预测特征对缩略/惩罚/正则化进行不同程度的惩罚) )。其次,“真实”贝叶斯方法不会产生单个模型,而是会获得整个后验分布以进行预测。 考虑到这些贝叶斯特征,过度拟合意味着什么?我们应该评估一下吗?如果是这样,怎么办?我们如何知道贝叶斯模型何时可用于现场?还是当我们使用我们为预测而开发的模型时,后验将带有所有谨慎的不确定性,这是一个有争议的问题吗? 如果我们强制将贝叶斯模型提炼为单个数字,例如后均值/众数/中位数风险,那么思维将如何改变? 我在这里看到一些相关的想法。在这里可以找到平行讨论。 后续问题::如果我们完全是贝叶斯模型,并且在查看数据之前花了一些时间在先验上,并且我们在适当地指定了数据似然性的情况下拟合了模型,那么我们是否必须对模型过度拟合感到满意?还是我们需要做一些我们在常人世界中所做的事情,在该世界中,随机选择的主题在平均水平上可能会被很好地预测,但是如果我们选择一个预测值非常低或预测值非常高的主题,则会出现回归是什么意思?

3
我们如何判断Nate Silver的预测的准确性?
首先,他给出了结果的可能性。因此,举例来说,他对美国大选的预测目前为克林顿82%,特朗普18%。 现在,即使特朗普获胜,我怎么不知道他应该赢得的不仅仅是18%的时间? 另一个问题是他的概率随时间变化。因此,在7月31日,特朗普和克林顿之间的差距几乎达到了50:50。 我的问题是,鉴于他每天在同一事件中具有相同结果并具有不同结果的概率不同,我如何衡量他根据当日可用的信息做出预测的每一天的准确性?

3
我可以使用一个很小的验证集吗?
我了解将数据分为测试集和验证集的原因。我也了解,拆分的大小取决于情况,但通常会在50/50到90/10之间变化。 我建立了一个RNN以纠正拼写,并从大约500万个句子的数据集开始。我削减了50万个句子,然后训练剩下的〜450万个句子。训练完成后,我将使用我的验证集并计算准确性。 有趣的是,仅在我的验证集的4%之后,我的准确度为69.4%,并且该百分比在任一方向上的变化不超过0.1%。最终我只是缩短了验证时间,因为这个数字停留在69.5%。 那么,当我大概可以摆脱1%的费用时,为什么要砍掉10%的费用进行验证?有关系吗?

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
“引导程序验证”(又称为“重采样交叉验证”)的程序是什么?
“ Bootstrap验证” /“重新采样交叉验证”对我来说是新手,但对此问题的答案进行了讨论。我收集到的数据涉及2种类型的数据:真实数据和模拟数据,其中通过替换重采样从真实数据生成给定的一组模拟数据,直到模拟数据的大小与真实数据相同。我可以想到两种使用此类数据类型的方法:(1)一次拟合模型,对许多模拟数据集进行多次评估;(2)使用许多模拟数据集中的每一个对模型进行多次拟合,每次针对实际数据进行评估。哪个(如果有)最好?

2
Scikit使用CalibratedClassifierCV校准分类器的正确方法
Scikit具有CalibratedClassifierCV,它使我们能够在特定的X,y对上校准模型。它还明确指出data for fitting the classifier and for calibrating it must be disjoint. 如果它们必须不相交,则对分类器进行以下训练是否合法? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) 我担心使用相同的训练集会违反disjoint data规则。另一种可能是设置验证集 my_classifier.fit(X_train, y_train) model = CalibratedClassifierCV(my_classifier, cv='prefit') model.fit(X_valid, y_valid) 这样做的缺点是要保留较少的数据用于训练。另外,如果CalibratedClassifierCV只适合于适合其他训练集的模型,为什么默认选项为cv=3,也适合基本估计量?交叉验证是否可以自行处理不相交规则? 问题:使用CalibratedClassifierCV的正确方法是什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.