Answers:
除非您有大量样本(例如),否则不重新采样而进行的样本样本验证(交叉验证,或者更好:自举)是不可靠的。通常首选使用引导程序进行严格的内部验证,前提是您对所有模型选择步骤进行了编程,以便可以在每个引导程序循环中重复这些步骤。除挥发性之外,拆分样本方法的问题之一是难以选择拆分分数。
根据应用程序的不同,您可能会跳过不确定性,而使用引导程序。
Wiki:http://en.wikipedia.org/wiki/Bootstrapping_(statistics)
相关问题在这里。了解引导进行验证和模型选择
当然,您还必须确定(两倍)重采样的拆分率...
但是,请记住,重采样通常可在很宽的分光比范围内使用
如果您正在处理10000 <N <1000000的大规模数据(而不是大数据),该怎么办?
如果不确定不确定是否需要重采样,可以执行以下操作:重采样几次。足够了,因此您可以测量是否需要重新采样。
有了这些结果,您可以决定是否应该添加更多的重采样迭代,或者是否一切正常。
没有硬性规定。但是实证分析表明,您拥有的训练数据越多,您的准确性就越好。但是无论您做什么,都不要忘记将所有的培训/验证/测试数据放在一起,并在打包时进行10倍的简历。这样可以很好地了解实验过程中是否存在过拟合/欠拟合问题。