如何为小样本数据选择训练,交叉验证和测试集大小?


10

假设我的样本量较小,例如N = 100,并且有两个类别。如何为机器学习选择训练,交叉验证和测试集的大小?

我会直觉地选择

  • 训练集大小为50
  • 交叉验证集大小为25,并且
  • 测试大小为25。

但这可能或多或少都有意义。我应该如何真正确定这些价值?我可以尝试其他选择吗(尽管我认为它不是那么可取……过度学习的可能性增加了)?

如果我上两节课以上怎么办?


2
100对我来说太小了。我会为交叉验证和测试评估选择一种“一劳永逸”的策略。
2014年

我还没有看过任何有关这方面的文献(用于验证的最小样本量)。不知道为什么。似乎是一个重要的问题。
查尔斯(Charles)2014年

Answers:


15

+1纯粹是关于参数优化和模型复杂性的建议。但是所有这些建议都很棒。
查尔斯

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.