我的数据集很小(120个样本),但是特征的数量却很大(从1000-200,000)不等。尽管我正在进行特征选择以选择特征子集,但它可能仍然过拟合。
我的第一个问题是,SVM如何处理过度拟合(如果有的话)。
其次,随着我对分类情况下的过度拟合的更多研究,我得出的结论是,即使具有少量特征的数据集也可能过度拟合。如果我们没有与类标签相关的特征,则无论如何都会发生过度拟合。因此,我现在想知道如果无法为类标签找到正确的功能,那么自动分类的意义何在?在文档分类的情况下,这将意味着手动制作与标签有关的单词词库,这非常耗时。我想我想说的是,如果不亲自挑选正确的功能,就很难建立通用模型?
同样,如果实验结果没有表明结果偏低/没有过拟合,则变得毫无意义。有办法测量吗?