Answers:
多篇论文认为
仅在极少数情况下,才知道误差的分布与特征数量和样本大小的关系。
给定的一组实例和特征的错误表面是特征之间相关性(或不存在)的函数。
本文提出以下建议:
可以采用的另一种(经验)方法是从同一数据集中绘制不同样本量的学习曲线,并使用它来预测不同样本量下的分类器性能。这是论文的链接。
根据我自己的经验:在一个案例中,我使用的是很小的真实数据库(300张图像),包含许多类,严重的数据不平衡问题,最终我使用了9种功能:SIFT,HOG,Shape context,SSIM,GM和4种基于DNN的功能。在另一种情况下,我使用了非常大的数据库(> 1 M张图像),最后只使用了HOG功能。我认为实例数量与实现高精度所需的功能数量之间没有直接关系。但是:类的数量,类之间的相似性以及同一类内的变化(这三个参数)可能会影响要素的数量。当拥有具有多个类的大型数据库,并且类之间的相似度很大,并且同一类内的变异较大时,则需要更多功能来实现高精度。记得:
参加聚会有点晚,但是这里有一些启发。
每个类别中有20个实例的二进制分类问题,要使用的功能数量是否有上限?
为了训练线性分类器,建议每个类别和功能使用3-5个独立案例。该限制为您提供了可靠稳定的模型,但不能保证一个好的模型(这是不可能的:您可能拥有无法提供信息的数据,而没有一个模型可以实现良好的泛化性能)
但是,对于与您的情况一样小的样本量,验证(验证)而不是训练是瓶颈,并且验证取决于测试用例的绝对数量,而不是与模型复杂性相关的案例:根据经验,您需要≈100个测试在分母中估计不超过10%点宽的置信区间的比例。
不幸的是,这也意味着您基本上无法获得应用程序的经验学习曲线:您无法对其进行足够精确的测量,并且在实践中,无论如何,您都将很难推断出它,因为训练时您会通过限制模型来应对小样本量复杂性-随着样本量的增加,您可以放松这一点。
有关详细信息,
请参见我们的论文:Beleites,C.和Neugebauer,U.和Bocklitz,T.和Krafft,C.和Popp,J .:分类模型的样本量计划。肛门Chim Acta,2013,760,25-33。
DOI:10.1016 / j.aca.2012.11.007
在arXiv上接受的手稿:1211.1323
我从来没有接近这些建议的东西(光谱数据,也用于医疗应用)。然后我要做的是:在建模和验证过程中,我非常仔细地测量模型的稳定性。