我想执行过采样和欠采样的组合,以使我的数据集与大约4000个分为两组的客户保持平衡,其中一组的比例约为15%。
我研究了SMOTE(http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE)和ROSE(http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf),但是这两种方法都可以使用现有的观测数据(例如kNN)创建新的合成样本。
但是,由于与客户相关的许多属性都是分类的,因此我认为这不是正确的方法。例如,我的很多变量(例如Region_A和Region_B)都是互斥的,但是使用kNN可以将新的观测值放置在Region_A和Region_B中。您是否同意这是一个问题?
在那种情况下-如何通过简单地复制现有观测值来在R中执行过采样?还是这是错误的方法?
如果只有4000个观测值,为什么需要二次采样?
—
kjetil b halvorsen 2014年
我想平衡我的数据集以使类的份额大致相等。如果我现在使用我的数据,那么这些模型将简单地预测所有观察值作为多数类。
—
pir