分层抽样与随机抽样在分类中生成训练数据的好处


20

我想知道在将原始数据集分为训练和测试集进行分类时,使用分层抽样而不是随机抽样是否有任何/某些优势。

另外,分层抽样是否比随机抽样给分类器带来更大的偏差?

我想使用分层抽样进行数据准备的应用程序是一个随机森林分类器,在2上进行了训练23原始数据集的 3。在分类器之前,还有一个合成样本生成的步骤(SMOTE [1]),可以平衡类的大小。

[1] Chawla,Nitesh V.等。“ SMOTE:合成少数族群过采样技术。 ”人工智能研究杂志16(2002):321-357。

Answers:


20

分层抽样旨在拆分数据集,以使每次拆分在某些方面相似。

在分类设置中,通常要选择以确保训练集和测试集的每个目标类别的样本所占的百分比与成套样本的百分比大致相同。

结果,如果数据集的每个类别都有大量,则分层抽样与随机抽样几乎相同。但是,如果一个类别在数据集中的代表性不高(在您的数据集中可能是这种情况,因为您计划对少数类别进行过采样),那么分层抽样可能会在训练和测试集中产生与随机样本不同的目标类别分布采样可能会产生。

请注意,分层抽样还可以设计为在下一列训练和测试集中平均分布某些特征。例如,如果每个样本代表一个人,并且一个特征是年龄,则在训练和测试集中具有相同的年龄分布有时会很有用。

仅供参考:

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.