需要多大的训练集?


24

是否有一种通用的方法来确定训练一个分类器(在这种情况下为LDA)以获得最小阈值泛化精度所需的训练样本数量?

我之所以问是因为我想尽量减少在脑机接口中通常需要的校准时间。


2
user2030669,@cbeleites下面的回答非常棒,但是作为一个粗略的经验法则:您需要至少6倍于案例(样本)数量的特征。
BGreene

2
...在每个班级。我也看到了5p和3p /类的建议。
cbeleites支持Monica

Answers:


31

您正在寻找的搜索词是“学习曲线”,它给出(平均)模型性能作为训练样本量的函数。

学习曲线取决于很多事情,例如

  • 分类方法
  • 分类器的复杂度
  • 班级分开的程度。

(我认为对于两类LDA,您也许可以得出一些理论上的功效计算,但关键的事实始终是您的数据是否实际上满足“等于COV多元正态”假设。我将对两个LDA进行一些模拟假设并重新采样您已经存在的数据)。

ñ

  • ññ=
  • ñ

    ñ

您可能需要考虑的另一方面是,训练一个好的分类器通常是不够的,但是您还需要证明分类器是好的(或足够好)。因此,您还需要计划以给定的精度进行验证所需的样本数量。如果您需要将这些结果作为许多测试案例(例如生产者或消费者的准确性/精度/敏感性/阳性预测值)中成功的一部分给出,并且基本的分类任务相当容易,那么与培训一个好榜样。

根据经验,为了进行训练,通常会针对模型复杂性(案例数:变量数)来讨论样本大小,而可以针对性能测量所需的精度给出测试样本大小的绝对界限。

这是一篇论文,我们在其中进行了更详细的解释,并讨论了如何构造学习曲线:
Beleites,C.和Neugebauer,U.以及Bocklitz,T.和Krafft,C.和Popp,J .:样本量计划用于分类模型。肛门Chim Acta,2013,760,25-33。
DOI:10.1016 / j.aca.2012.11.007
在arXiv上接受的手稿:1211.1323

这是“预告片”,显示了一个简单的分类问题(实际上,我们在分类问题中有这样一个简单的区分,但是其他类很难区分): 预告样本大小规划纸

我们没有尝试外推较大的训练样本大小来确定需要多少训练案例,因为测试样本大小是我们的瓶颈,而较大的训练样本大小会使我们构建更复杂的模型,因此外推是有问题的。对于我拥有的那种数据集,我将迭代地进行处理,测量一堆新案例,显示有多少改进之处,测量更多案例,等等。

对于您而言,这可能有所不同,但是本文包含对文献的文献参考,这些文献使用外推法对更高的样本量进行估算,以估计所需的样本数。


对我的LDA使用正则化方案是否可以使我使用较小的培训集?
Lunat1c

1
@ user2036690,更简化的模型(功能较少)将需要较少的训练样本。如果可以减少不太重要的功能的影响,则正则化方案不会影响所需的样本数量。某种功能合理化可能会允许使用更小的训练集
BGreene

1
然而,数据驱动的特征选择需要大量样本,因为每个模型比较实际上都是一项统计测试。但是,通过专业知识进行的功能选择可以立即提供帮助。@BGreene:您能扩展为什么正则化不能帮助减少样本量要求(例如,考虑病态协方差矩阵上的脊)吗?恕我直言,它不能创造奇迹,但可以提供帮助。
cbeleites支持Monica

好吧,在没有进行史诗般的讨论的情况下,我指的是弗里德曼的正则化表述,而不是岭或其他不利回归。但是,无论哪种方式,系数都不会像Lasso中那样降低为零,因此维数不受影响,因此不会对避免上述不适当矩阵所需的样本大小产生影响。道歉,如果这看起来很
麻烦

@BGreene:没闲逛,我确实问过。有趣的问题是:通过以数据驱动的方式将系数设置为零,总体df /复杂度降低了多少。无论如何,我们正陷入一个不同的故事……
cbeleites支持Monica

4

询问训练样本量意味着您将保留数据以进行模型验证。这是一个不稳定的过程,需要大量的样本。使用引导程序进行强内部验证通常是首选。如果选择该路径,则只需计算一个样本大小。正如@cbeleites所说的那样,这通常是“每个候选变量的事件”评估,但是即使没有要检查的特征,您也需要至少96个观察值才能准确地预测二进制结果的可能性。在估计Y = 1]的实际边际概率时,误差为0.95的置信度裕度为0.1。

重要的是要考虑正确的评分规则以进行准确性评估(例如,Brier得分和对数似然/偏离)。还要确保您确实要对观察进行分类,而不是估计隶属概率。后者几乎总是更有用,因为它允许出现灰色区域。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.