1
分层抽样与随机抽样在分类中生成训练数据的好处
我想知道在将原始数据集分为训练和测试集进行分类时,使用分层抽样而不是随机抽样是否有任何/某些优势。 另外,分层抽样是否比随机抽样给分类器带来更大的偏差? 我想使用分层抽样进行数据准备的应用程序是一个随机森林分类器,在2上进行了训练2323\frac{2}{3}原始数据集的 3。在分类器之前,还有一个合成样本生成的步骤(SMOTE [1]),可以平衡类的大小。 [1] Chawla,Nitesh V.等。“ SMOTE:合成少数族群过采样技术。 ”人工智能研究杂志16(2002):321-357。