如何为小样本数据选择训练，交叉验证和测试集大小？

10

假设我的样本量较小，例如N = 100，并且有两个类别。如何为机器学习选择训练，交叉验证和测试集的大小？

我会直觉地选择

训练集大小为50
交叉验证集大小为25，并且
测试大小为25。

但这可能或多或少都有意义。我应该如何真正确定这些价值？我可以尝试其他选择吗（尽管我认为它不是那么可取……过度学习的可能性增加了）？

如果我上两节课以上怎么办？

— 美东时间
source

2

100对我来说太小了。我会为交叉验证和测试评估选择一种“一劳永逸”的策略。

— 2014年

我还没有看过任何有关这方面的文献（用于验证的最小样本量）。不知道为什么。似乎是一个重要的问题。

— 查尔斯（Charles）2014年

15

您肯定找到了非常类似的问题：在K折交叉验证中选择K？
（包括指向Ron Kohavi作品的链接）
$k$ 一般推荐。
有趣的是，与样本量很小的分类问题相比，与训练体面模型相比，验证通常更加困难（就样本量需求而言）。如果您需要有关此方面的任何文献，请参阅例如我们关于样本量计划的论文：
Beleites，C。和Neugebauer，U。和Bocklitz，T。和Krafft，C。和Popp，J .：分类模型的样本量计划。肛门Chim Acta，2013，760，25-33。
DOI：10.1016 / j.aca.2012.11.007
在arXiv上接受的手稿：1211.1323
另一个要点是要充分利用迭代/重复交叉验证的可能性（这是反对LOO的原因之一）：这使您可以测量预测对训练的扰动（即几种不同情况）的稳定性。数据。

文献：
- Beleites，C。＆Salzer，R .：在小样本量情况下评估和提高化学计量模型的稳定性Anal Bioanal Chem，2008，390，1261-1271。
  DOI：10.1007 / s00216-007-1818-6
- Dixon，SJ；北海因里希；M. ML Schaefer；里德（RR）；Trevejo，J.＆Brereton，RG：当通过将先验概率结合到三种常见方法中而导致组大小不相等时，分类方法的应用：应用于模拟和小鼠尿液化学信号，Chemom Intell Lab Syst，2009，99，111-120。
  DOI：10.1016 / j.chemolab.2009.07.016
如果您决定在保留测试集上进行一次运行（无迭代/重复），
- 请记住，使用交叉验证可能会发生的大多数错误（这将导致乐观的偏见）也可能会由于保留测试集而发生。
- 检查性能测量结果置信区间的宽度，并确保对结果进行有意义的解释（请参阅样本量计划文件）。

— cbeleites对SX不满意
source

+1纯粹是关于参数优化和模型复杂性的建议。但是所有这些建议都很棒。

— 查尔斯

1

鉴于您的样本量很小，一种好的做法是忽略交叉验证部分，并使用60-40或70-30的比率。

正如您在《Clementine和数据挖掘简介》第2.8节以及MSDN库-数据挖掘-训练和测试集中看到的那样，比率通常为70-30。根据吴安德（Andrew Ng）的机器学习讲座，建议使用60-20-20的比率。

希望我会有所帮助。最好的祝福。

— mrdatamx
source