假设我的样本量较小,例如N = 100,并且有两个类别。如何为机器学习选择训练,交叉验证和测试集的大小?
我会直觉地选择
- 训练集大小为50
- 交叉验证集大小为25,并且
- 测试大小为25。
但这可能或多或少都有意义。我应该如何真正确定这些价值?我可以尝试其他选择吗(尽管我认为它不是那么可取……过度学习的可能性增加了)?
如果我上两节课以上怎么办?
2
100对我来说太小了。我会为交叉验证和测试评估选择一种“一劳永逸”的策略。
—
2014年
我还没有看过任何有关这方面的文献(用于验证的最小样本量)。不知道为什么。似乎是一个重要的问题。
—
查尔斯(Charles)2014年