Questions tagged «unbalanced-classes»

如果观察数(ñ)属于每个类别的信息在各个类别之间并不是恒定不变的。不平等的班级ñ *不平衡*。

2
为不平衡数据的逻辑回归增加权重
我想用不平衡的数据(9:1)对逻辑回归建模。我想尝试glmR函数中的weights选项,但是我不确定100%会做什么。 可以说我的输出变量是c(0,0,0,0,0,0,0,0,0,1)。现在我想给“ 1”增加10倍的重量。所以我给出权重的论点weights=c(1,1,1,1,1,1,1,1,1,1,1,10)。 当我这样做时,将在最大似然计算中考虑它。我对吗?错误分类“ 1”比错误分类“ 0”仅差10倍。

2
方差分析中变量的顺序很重要,不是吗?
我是否正确理解,在多元ANOVA中指定变量的顺序会有所不同,但是在进行多元线性回归时顺序并不重要? 因此,假设存在诸如测得的失血量 y和两个分类变量之类的结果 增殖腺切除术的方法 a, 扁桃体切除方法 b。 该模型y~a+b不同于该模型y~b+a(或因此我在R中的实现似乎表明了这一点)。 我是否正确理解这里的术语是方差分析是一种层次模型,因为它在尝试将剩余方差归因于第二因素之前首先将尽可能多的方差归因于第一因素? 在上面的示例中,层次结构是有道理的,因为我总是在进行扁桃体切除术之前先进行腺样体切除术,但是如果一个人有两个没有内在顺序的变量会怎样?

2
对过采样的不平衡数据进行测试分类
我正在处理严重不平衡的数据。在文献中,使用几种方法通过重新采样(过采样或欠采样)来重新平衡数据。两种好的方法是: SMOTE:合成少数类过采样技术(SMOTE) ADASYN:用于失衡学习的自适应合成采样方法(ADASYN) 我之所以实现ADASYN,是因为它具有自适应性并且易于扩展到多类问题。 我的问题是如何测试由ADASYN产生的过采样数据(或任何其他过采样方法)。在上述两篇论文中还不清楚他们如何进行实验。有两种情况: 1-对整个数据集进行过采样,然后将其拆分为训练和测试集(或交叉验证)。 2-拆分原始数据集后,仅对训练集执行过采样,然后对原始数据测试集进行测试(可以通过交叉验证执行)。 在第一种情况下,结果要比不进行过度采样好得多,但我担心是否存在过度拟合。在第二种情况下,结果比没有过采样的情况略好,但比第一种情况差得多。但是第二种情况的问题在于,如果所有少数族裔样本都进入测试集,那么过采样将不会带来任何好处。 我不确定是否还有其他设置可以测试此类数据。

3
不平衡数据集上的ROC与精确召回曲线
我刚刚阅读完此讨论。他们认为,在不平衡数据集上,PR AUC比ROC AUC更好。 例如,我们在测试数据集中有10个样本。9个样本为阳性,1个样本为阴性。我们有一个糟糕的模型,它预测一切都是积极的。因此,我们将得到一个度量,TP = 9,FP = 1,TN = 0,FN = 0。 然后,Precision = 0.9,Recall = 1.0。精度和召回率都很高,但是分类器很差。 另一方面,TPR = TP /(TP + FN)= 1.0,FPR = FP /(FP + TN)= 1.0。由于FPR很高,我们可以确定这不是一个很好的分类器。 显然,在不平衡数据集上,ROC优于PR。有人可以解释为什么PR更好吗?

2
GBM分类是否遭受班级规模不平衡的困扰?
我正在处理有监督的二进制分类问题。我想使用GBM软件包将个人分类为未感染/已感染。我的未感染人数是感染者的15倍。 我想知道GBM模型在班级规模不均衡的情况下是否会受到影响?我没有找到回答该问题的参考文献。 我尝试通过为未感染的个体分配1的权重并为感染的个体分配15的权重来调整权重,但是结果却很差。

3
在高度不平衡的环境中进行成本敏感型学习的建议
我有一个包含几百万行和约100列的数据集。我想检测数据集中大约1%的示例,它们属于一个普通类。我有一个最低限度的精度约束,但是由于成本非常不对称,所以我对任何特定的召回都不太热衷(只要我没有剩下10个正匹配项!) 在这种情况下,您会推荐哪些方法?(欢迎链接到论文,赞赏实现的链接)

3
支持不平衡数据的SVM
我想尝试在数据集中使用支持向量机(SVM)。但是在尝试问题之前,我曾警告过SVM在极端不平衡的数据上不能很好地执行。就我而言,我最多可以有95-98%的0和2-5%的1。 我试图找到有关在稀疏/不平衡数据上使用SVM的资源,但我能找到的只是“ sparseSVM”(使用少量支持向量)。 我希望有人可以简要解释一下: SVM对这种数据集的预期效果如何 如果有的话,必须对SVM算法进行修改 哪些资源/论文对此进行了讨论



1
当对不平衡的类进行过度/欠采样时,最大化准确性与最小化错误分类成本是否有所不同?
首先,我想描述一些数据挖掘书籍用来解释如何处理不平衡数据集的常见布局。通常,主要部分名为不平衡数据集,它们涵盖了以下两个子部分:成本敏感分类和抽样技术。 似乎面对一个罕见的类问题,您可以执行成本敏感的分类和抽样。相反,我认为,如果稀有类别也是分类的目标,并且对该类别的记录进行错误分类的代价高昂,则应该应用成本敏感的技术。 另一方面,如果分类的目标总体上具有良好的准确性,而不关注特定类别,则采样技术(例如过采样和欠采样)将很有用。 这种信念来自MetaCost的基本原理,MetaCost是使分类器对成本敏感的一种通用方法:如果一个人希望使分类器对成本敏感,以便惩罚稀有类的分类错误,则他应该对另一类进行过采样。粗略地讲,分类器尝试适应其他类别,并且变为稀有类别所特有的。 这与对稀有类进行过度采样相反,这是解决此问题的通常建议方法。稀有类别的过采样或其他类别的过采样有助于提高整体准确性。 拜托,如果您确认我的想法,那将是很棒的。 如此说来,不平衡数据集面临的常见问题是: 我是否应该尝试获取与其他稀有记录一样多的稀有记录? 我的答案是,如果您正在寻找准确性:好的。您可以执行此操作,以查找更多罕见的类示例,或者删除其他类的某些记录。 如果您使用成本敏感技术专注于稀有类,我会回答:您只能找到更多稀有类示例,但不应删除其他类的记录。在后一种情况下,您将无法让分类器适应其他类别,并且罕见的类别错误分类错误可能会增加。 你会怎么回答?


2
为什么对于逻辑回归,P> 0.5临界值不是“最佳”的?
前言:我不在乎是否使用截止值的优点,也不在乎应该如何选择截止值。我的问题纯属数学,是出于好奇。 Logistic回归模型对A类与B类的后验条件概率进行建模,并且它拟合后验条件概率相等的超平面。因此,从理论上讲,我知道0.5的分类点将最大程度地减少总误差,而与集合平衡无关,因为它对后验概率建模(假设您始终遇到相同的分类比率)。 在我的实际示例中,使用P> 0.5作为分类截止值时,我获得的准确性非常差(约51%的准确性)。但是,当我查看AUC时,它高于0.99。因此,我查看了一些不同的临界值,发现P> 0.6的准确度为98%(较小类别的准确度为90%,较大类别的准确度为99%)-仅2%的案例被错误分类。 这些类严重不平衡(1:9),这是一个高维问题。但是,我将类平均分配给每个交叉验证集,这样模型拟合和预测之间的类平衡之间就不会有差异。我还尝试使用来自模型拟合和预测的相同数据,并且发生了相同的问题。 我对0.5不能使误差最小化的原因感兴趣,我认为如果通过最小化交叉熵损失来拟合模型,这将是设计使然。 是否有人对为什么会发生有任何反馈?是由于增加了处罚,如果可以的话,有人可以解释发生了什么吗?

1
如何减少误报的数量?
我正在尝试解决名为“ 行人检测”的任务,并且在两个类别的积极因素(人,负面因素)的背景上训练二进制clasifer。 我有数据集: 正数= 3752 负数= 3800 我使用 带有参数的train \ test split 80 \ 20%和RandomForestClassifier形式scikit-learn: RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) 我得到分数:95.896757% 测试训练数据(完美运行): true positive: 3005 false positive: 0 false negative: 0 true negative: 3036 对测试数据进行测试: true positive: 742 false positive: 57 false negative: 5 true negative: 707 我的问题是如何减少误报(背景分类为人)的数量?另外,为什么我的误报错误多于误报错误? 我尝试使用class_weight参数,但有时性能会下降(如class_weight = {0:1,1:4}所示)。 …


3
一个人应该使用什么损失函数来获得高精度或高召回率的二进制分类器?
我正尝试制作一个很少出现的物体(在图像中)检测器,计划使用在滑动/调整大小的窗口中应用的CNN二进制分类器。我已经构建了平衡的1:1正负训练和测试集(在这种情况下,这样做是对的吗?),分类器在测试集上的准确性很好。现在,我想控制分类器的召回率/精度,例如,它不会错误地标记过多的多数类事件。 明显的(对我来说)解决方案是使用与现在使用的相同的逻辑损失,但是通过将两种情况之一中的损失乘以某个常数,可以将I型和II型权重的误差乘以不同,这可以调整。这样对吗? PS第二个想法是,这等同于对一些训练样本进行加权。我认为,只增加一个班级就能达到相同的效果。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.