Questions tagged «oversampling»

1
普遍关于过采样的观点,尤其是关于SMOTE算法的观点[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 2年前关闭。 您总体上对分类过采样,特别是对SMOTE算法有何看法?为什么我们不仅仅应用成本/罚金来调整类数据的不平衡和任何不平衡的错误成本?就我的目的而言,对未来一组实验单位的预测准确性是最终的衡量标准。 作为参考,SMOTE论文:http : //www.jair.org/papers/paper953.html

2
对过采样的不平衡数据进行测试分类
我正在处理严重不平衡的数据。在文献中,使用几种方法通过重新采样(过采样或欠采样)来重新平衡数据。两种好的方法是: SMOTE:合成少数类过采样技术(SMOTE) ADASYN:用于失衡学习的自适应合成采样方法(ADASYN) 我之所以实现ADASYN,是因为它具有自适应性并且易于扩展到多类问题。 我的问题是如何测试由ADASYN产生的过采样数据(或任何其他过采样方法)。在上述两篇论文中还不清楚他们如何进行实验。有两种情况: 1-对整个数据集进行过采样,然后将其拆分为训练和测试集(或交叉验证)。 2-拆分原始数据集后,仅对训练集执行过采样,然后对原始数据测试集进行测试(可以通过交叉验证执行)。 在第一种情况下,结果要比不进行过度采样好得多,但我担心是否存在过度拟合。在第二种情况下,结果比没有过采样的情况略好,但比第一种情况差得多。但是第二种情况的问题在于,如果所有少数族裔样本都进入测试集,那么过采样将不会带来任何好处。 我不确定是否还有其他设置可以测试此类数据。

2
在R randomForest中进行替换采样
randomForest实现不允许采样超过观察次数,即使使用替换采样也是如此。为什么是这样? 工作正常: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) 我想做的事: rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE) Error in randomForest.default(m, y, ...) : sampsize can not be larger than class frequency 没有分层样本的类似错误: rf <- randomForest(Species ~ …

1
SMOTE针对多类不平衡问题引发错误
我正在尝试使用SMOTE纠正我的多类分类问题中的不平衡。尽管根据SMOTE帮助文档,SMOTE在虹膜数据集上可以很好地工作,但是在类似的数据集上却不能工作。这是我的数据的样子。请注意,它具有三个类别,值分别为1、2、3。 > data looking risk every status 1 0 1 0 1 2 0 0 0 1 3 0 0 0 2 4 0 0 0 1 5 0 0 0 1 6 3 0 0 1 7 0 0 0 1 8 0 0 0 1 9 0 1 …

1
使用分类变量进行过采样
我想执行过采样和欠采样的组合,以使我的数据集与大约4000个分为两组的客户保持平衡,其中一组的比例约为15%。 我研究了SMOTE(http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE)和ROSE(http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf),但是这两种方法都可以使用现有的观测数据(例如kNN)创建新的合成样本。 但是,由于与客户相关的许多属性都是分类的,因此我认为这不是正确的方法。例如,我的很多变量(例如Region_A和Region_B)都是互斥的,但是使用kNN可以将新的观测值放置在Region_A和Region_B中。您是否同意这是一个问题? 在那种情况下-如何通过简单地复制现有观测值来在R中执行过采样?还是这是错误的方法?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.