较大的验证集可提供对样本外性能的更准确估计。但是,正如您已经注意到的那样,在某个时候该估计值可能会像您需要的那样准确,并且您可以对达到该点所需的验证样本量进行一些粗略的预测。
为了获得简单正确的/错误的分类准确性,您可以将估算值的标准误计算为(一个伯努利变量的标准偏差),其中p是一个正确的分类的概率,和Ñ是验证组的大小。当然,您不知道p,但是您可能对它的范围有所了解。例如,假设您希望精度在60-80%之间,并且您希望自己的估计标准误小于0.1%:
√p(1 − p )/ n---------√pñpn(验证集的大小)
应为多大?对于p=0.6我们得到:
n> 0.6 − 0.6 2
p(1 − p )/ n---------√< 0.001
ñp = 0.6
对于
p=0.8,我们得到:
ñ>0.8-0.82Ñ > 0.6 - 0.620.0012= 240 ,000
p = 0.8
所以这告诉我们,你可以摆脱使用5万个数据样本的不足5%,进行验证。如果您期望更高的性能,或者特别是如果您对样本外性能估算的标准误差较低(例如,
p=0.7且se <1%,则仅需要2100个验证样本),则该百分比会降低,或少于数据量的百分之二十)。
Ñ > 0.8 - 0.820.0012= 160 ,000
p = 0.7
这些计算还显示了Tim在回答中提出的观点,即估算的准确性取决于验证集的绝对大小(即),而不是其相对于训练集的大小。ñ
(也可以补充一点,我在这里假设有代表性的抽样。如果您的数据非常异构,则可能需要使用较大的验证集,只是为了确保验证数据包括与训练和测试数据相同的所有条件。 )