Answers:
影响因素是模型的稳定性 -更确切地说是代理的预测。
如果模型完全稳定,则所有替代模型将针对相同的测试用例产生相同的预测。在这种情况下,不需要迭代/重复,也不会产生任何改进。
当您可以衡量预测的稳定性时,这就是我要做的事情:
然后确定要优化结果的进一步迭代次数。
当然,您可以决定运行5次迭代,然后决定要执行的最终迭代次数。
(旁注:我通常使用>大约1000个代理模型,因此典型的重复/迭代次数约为100-125)。
向统计学家提出任何问题,他们的回答将是“取决于”的某种形式。
这要看情况。除了模型的类型(好点方尖碑!)之外,训练设定点的数量和预测变量的数量是多少?如果该模型用于分类,则较大的班级失衡将导致我增加重复次数。另外,如果我要对特征选择过程进行重采样,则我会偏向于更多重采样。
对于在这种情况下使用的任何重采样方法,请记住(与经典自举法不同),您只需要进行足够的迭代就可以得出分布平均值的“足够精确”的估计值。那是主观的,但是任何答案都是。
坚持使用两个类别进行分类,假设您希望/希望模型的准确性约为0.80。由于重采样过程被采样的准确性估计(比方说p
)将是标准误差sqrt[p*(1-p)]/sqrt(B)
,其中B
是重采样的数量。对于B = 10
,精度的标准误差约为0.13,而B = 100
约为0.04。您可以将该公式用作此特定情况的粗略指导。
还应考虑到,在此示例中,精度的方差越接近0.50,就最大化了,因此精确的模型应需要较少的重复,因为标准误差应低于学习能力较弱的模型。
HTH,
最高