2
如何为小样本数据选择训练,交叉验证和测试集大小?
假设我的样本量较小,例如N = 100,并且有两个类别。如何为机器学习选择训练,交叉验证和测试集的大小? 我会直觉地选择 训练集大小为50 交叉验证集大小为25,并且 测试大小为25。 但这可能或多或少都有意义。我应该如何真正确定这些价值?我可以尝试其他选择吗(尽管我认为它不是那么可取……过度学习的可能性增加了)? 如果我上两节课以上怎么办?
使用概率方法从明确指定的总体中创建样本和/或根据指定的分布生成随机数。由于此标签含糊不清,因此请考虑对前者使用[调查抽样],对后者考虑[蒙特卡洛]或[模拟]。对于从已知分布中创建随机样本的问题,请考虑使用[random-generation]标签。