我正在处理严重不平衡的数据。在文献中,使用几种方法通过重新采样(过采样或欠采样)来重新平衡数据。两种好的方法是:
我之所以实现ADASYN,是因为它具有自适应性并且易于扩展到多类问题。
我的问题是如何测试由ADASYN产生的过采样数据(或任何其他过采样方法)。在上述两篇论文中还不清楚他们如何进行实验。有两种情况:
1-对整个数据集进行过采样,然后将其拆分为训练和测试集(或交叉验证)。
2-拆分原始数据集后,仅对训练集执行过采样,然后对原始数据测试集进行测试(可以通过交叉验证执行)。
在第一种情况下,结果要比不进行过度采样好得多,但我担心是否存在过度拟合。在第二种情况下,结果比没有过采样的情况略好,但比第一种情况差得多。但是第二种情况的问题在于,如果所有少数族裔样本都进入测试集,那么过采样将不会带来任何好处。
我不确定是否还有其他设置可以测试此类数据。