我的数据集最多包含150个示例(分为训练和测试),并且具有许多功能(高于1000个)。我需要比较在数据上表现良好的分类器和特征选择方法。因此,我使用三种分类方法(J48,NB,SVM)和2种特征选择方法(CFS,WrapperSubset)以及不同的搜索方法(Greedy,BestFirst)。
比较时,我正在研究训练准确性(5折交叉折叠)和测试准确性。
这是J48和CFS-BestFirst的结果之一:
{“ accuracyTraining”:95.83,“ accuracyTest”:98.21}
许多结果是这样的,并且在SVM上有许多结果表明测试准确性远高于训练(训练:60%,测试:98%)
我如何有意义地解释这些结果?如果更低,我会说这太过合适了。通过查看所有结果,在这种情况下是否有关于偏差和方差的说法?我该怎么做才能使这种分类有意义,例如重新选择训练和测试集,或者仅对所有数据使用交叉验证?
我有73个培训和58个测试实例。一些答案在发布时没有此信息。