关于功能数量与实例数量的任何“经验法则”吗?(小数据集)


17

我想知道,在特征数量与观察数量之间是否有启发式方法?显然,如果特征数量等于观测值数量,则模型将过拟合。通过使用稀疏方法(LASSO,弹性网),我们可以删除一些特征以简化模型。

我的问题是(理论上):我们使用度量来评估模型选择之前,是否存在将最佳特征数量与观察数量相关联的经验观察?

例如:对于每个类中有20个实例的二进制分类问题,要使用的特征数量是否有上限?

Answers:


13

多篇论文认为

仅在极少数情况下,才知道误差的分布与特征数量和样本大小的关系。

给定的一组实例和特征的错误表面是特征之间相关性(或不存在)的函数。

本文提出以下建议:

  • 对于不相关的要素,最佳要素大小为(其中N为样本大小)ñ-1个ñ
  • 随着特征相关性的增加,最佳特征尺寸与成正比为高度相关的特征。ñ

可以采用的另一种(经验)方法是从同一数据集中绘制不同样本量的学习曲线,并使用它来预测不同样本量下的分类器性能。这是论文的链接


2
我发现这个答案有些令人误解,因为缺少Hua论文的一个关键假设:Hua等人的功能。在链接的文件中考虑的所有内容都具有参考价值,这在实践中并不是您所期望的。恕我直言,这一点应明确指出,因为恕我直言,最常见的不相关“功能”类型是无信息的测量渠道。
cbeleites支持Monica

Wrt。学习曲线:OP可能无法在2×20的情况下使用它们,因为从很少的情况下就无法以有用的精度对其进行测量。Hua简短地提到了这一点,我们在下面的答案中链接的论文中相当详细地讨论了这一困难。
cbeleites支持Monica

8

根据我自己的经验:在一个案例中,我使用的是很小的真实数据库(300张图像),包含许多类,严重的数据不平衡问题,最终我使用了9种功能:SIFT,HOG,Shape context,SSIM,GM和4种基于DNN的功能。在另一种情况下,我使用了非常大的数据库(> 1 M张图像),最后只使用了HOG功能。我认为实例数量与实现高精度所需的功能数量之间没有直接关系。但是:类的数量,类之间的相似性以及同一类内的变化(这三个参数)可能会影响要素的数量。当拥有具有多个类的大型数据库,并且类之间的相似度很大,并且同一类内的变异较大时,则需要更多功能来实现高精度。记得:


@Bashar Haddad:如果我做错了,请纠正我(因为我是计算机视觉和ML的新手),HOG功能实际上不是高维向量(在我的情况下,我得到1764维HOG功能)。因此,当您说9个要素,其中之一是HOG时,您不是真的为HOG真正获得了高维特征空间吗?
Mathmath

1
在文献中,他们使用特征一词来表示特征类型或尺寸索引。因此,当我说我正在使用6个特征时,这意味着我正在使用6个特征类型,每个特征类型都是(1 x D)向量。如果我谈论的是猪的特征类型,则每个维度都可以是一个特征。
巴沙尔·哈达德

2

这取决于...但是答案当然无济于事。

他是模型复杂性的一些经验法则: 从数据中学习-VC维

“非常粗略”地,每个模型参数需要10个数据点。模型参数的数量可以类似于特征的数量。


2

参加聚会有点晚,但是这里有一些启发。

每个类别中有20个实例的二进制分类问题,要使用的功能数量是否有上限?

  • 为了训练线性分类器,建议每个类别和功能使用3-5个独立案例。该限制为您提供了可靠稳定的模型,但不能保证一个好的模型(这是不可能的:您可能拥有无法提供信息的数据,而没有一个模型可以实现良好的泛化性能)

  • 但是,对于与您的情况一样小的样本量,验证(验证)而不是训练是瓶颈,并且验证取决于测试用例的绝对数量,而不是与模型复杂性相关的案例:根据经验,您需要≈100个测试在分母中估计不超过10%点宽的置信区间的比例。

    不幸的是,这也意味着您基本上无法获得应用程序的经验学习曲线:您无法对其进行足够精确的测量,并且在实践中,无论如何,您都将很难推断出它,因为训练时您会通过限制模型来应对小样本量复杂性-随着样本量的增加,您可以放松这一点。

    有关详细信息
    请参见我们的论文:Beleites,C.和Neugebauer,U.和Bocklitz,T.和Krafft,C.和Popp,J .:分类模型的样本量计划。肛门Chim Acta,2013,760,25-33。 DOI:10.1016 / j.aca.2012.11.007
    在arXiv上接受的手稿:1211.1323

  • 我从来没有接近这些建议的东西(光谱数据,也用于医疗应用)。然后我要做的是:在建模和验证过程中,我非常仔细地测量模型的稳定性。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.