是否通过以下方式计算标准差估算值:
(http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation)
从10倍交叉验证中抽取的预测准确性?我担心由于训练集之间的实质重叠(尽管预测集是独立的),因此每次折叠之间计算的预测准确性是相互依赖的。任何讨论此问题的资源都将非常有帮助。
是否通过以下方式计算标准差估算值:
(http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation)
从10倍交叉验证中抽取的预测准确性?我担心由于训练集之间的实质重叠(尽管预测集是独立的),因此每次折叠之间计算的预测准确性是相互依赖的。任何讨论此问题的资源都将非常有帮助。
Answers:
我担心由于训练集之间的实质重叠(尽管预测集是独立的),因此每次折叠之间计算的预测准确性是相互依赖的。
恕我直言,训练集之间的重叠在这里不必成为大问题。也就是说,检查模型是否稳定当然很重要。稳定意味着交叉验证代理模型的预测是等效的(即,所有这些模型的独立案例都将获得相同的预测),实际上交叉验证通常不仅要求在代理模型之间,而且要求与在所有模型上训练的模型等效案件。因此,这种依赖关系是我们想要拥有的结果。
这适用于一个典型的问题:如果我根据这些数据训练模型,预测间隔是多少?如果问题是相反的,如果我们在案例中训练模型,那么预测间隔是多少?我们无法回答,因为训练集中的重叠意味着我们低估了方差一个未知量。
与使用独立测试集进行测试相比,后果如何?
但是,如果模型稳定,则此方差很小/可忽略。此外,可以测量这种类型的稳定性。
有什么可以不进行测量是整个数据集是如何代表相比,它是从得出的人口。这包括最终模型的部分偏差(但是,小的独立测试集也可能有偏差),这意味着不能通过交叉验证来估计相应的方差。
在应用实践中(基于这些数据训练的模型的性能),预测间隔计算将面临以下问题:恕我直言比方差交叉验证的哪些部分无法检测到更重要:例如
这些不仅是交叉验证还是独立测试集:基本上,您需要坐下来设计验证研究,否则很有可能“独立”测试集并不是那么独立。一旦完成,就可以考虑哪些因素可能具有实际重要性,哪些因素可以忽略。您可能会得出这样的结论:经过充分考虑,交叉估值已经足够好并且很明智,因为与可能的信息获取相比,独立验证的成本太高了。
,我将使用标准公式的常用公式,将其称为,类似于并详细报告测试的完成方式。