Questions tagged «unbalanced-classes»

如果观察数(ñ)属于每个类别的信息在各个类别之间并不是恒定不变的。不平等的班级ñ *不平衡*。

2
f-measure是准确性的代名词吗?
我了解f量度(基于精度和召回率)是对分类器的准确性的估计。同样,当我们有不平衡的数据集时,f度量优于准确性。我有一个简单的问题(更多是关于使用正确的术语,而不是技术)。我的数据集不平衡,并且在实验中使用了f-measure。我准备写一篇不适合机器学习/数据挖掘会议的论文。因此,在这种情况下,我可以准确地同义地指代f度量。例如,我的f值为0.82,那么我可以说我的分类器达到了82%的准确预测吗?

1
不平衡数据集的ROC曲线
考虑输入矩阵和二进制输出y。XXXyyy 衡量分类器性能的一种常用方法是使用ROC曲线。 在ROC图中,对角线是从随机分类器获得的结果。在输出不平衡的情况下,可以选择具有不同概率的0或1来改善随机分类器的性能。yyy000111 如何在ROC曲线图中表示此类分类器的性能?我想应该是一条具有不同角度的直线,而不是对角线了吗?

1
SMOTE针对多类不平衡问题引发错误
我正在尝试使用SMOTE纠正我的多类分类问题中的不平衡。尽管根据SMOTE帮助文档,SMOTE在虹膜数据集上可以很好地工作,但是在类似的数据集上却不能工作。这是我的数据的样子。请注意,它具有三个类别,值分别为1、2、3。 > data looking risk every status 1 0 1 0 1 2 0 0 0 1 3 0 0 0 2 4 0 0 0 1 5 0 0 0 1 6 3 0 0 1 7 0 0 0 1 8 0 0 0 1 9 0 1 …

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
使用分类变量进行过采样
我想执行过采样和欠采样的组合,以使我的数据集与大约4000个分为两组的客户保持平衡,其中一组的比例约为15%。 我研究了SMOTE(http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE)和ROSE(http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf),但是这两种方法都可以使用现有的观测数据(例如kNN)创建新的合成样本。 但是,由于与客户相关的许多属性都是分类的,因此我认为这不是正确的方法。例如,我的很多变量(例如Region_A和Region_B)都是互斥的,但是使用kNN可以将新的观测值放置在Region_A和Region_B中。您是否同意这是一个问题? 在那种情况下-如何通过简单地复制现有观测值来在R中执行过采样?还是这是错误的方法?

1
RandomForest-sklearn中的分类阈值
1)如何更改sklearn中RandomForest中的分类阈值(我认为默认值为0.5)? 2)如何在sklearn中进行欠采样? 3)我从RandomForest分类器中得到以下结果:[[1635 1297] [520 3624]] precision recall f1-score support class 0 0.76 0.56 0.64 2932 class 1 0.74 0.87 0.80 4144 平均/总计0.75 0.74 0.73 7076 首先,数据是不平衡的(0级为30%,1级为70%)。因此,我认为分类器更倾向于偏向于类别1,这意味着将类别从类别0转移到类别1(类别0的分类错误为1297,类别1的分类错误为520)。我怎样才能解决这个问题?缩减采样是否有帮助?或更改分类阈值? 更新:0级人口占40%,而1级人口占60%。但是,从0级到1级(1297)的漂移很高,而我希望它变低。

1
使用SVM处理不平衡的多类数据集的最佳方法
我正在尝试在相当不平衡的数据上使用SVM构建预测模型。我的标签/输出有三个类别,正,中性和负。我会说正面的例子约占我数据的10-20%,中立的约占50-60%,负数约占30-40%。我正在尝试平衡类,因为与类之间的错误预测相关的成本并不相同。一种方法是对训练数据进行重采样并生成一个相等的数据集,该数据集比原始数据集更大。有趣的是,当我这样做时,我倾向于对其他类别做出更好的预测(例如,当我平衡数据时,我增加了正面类别的示例数量,但在样本预测之外,负面类别的表现更好)。任何人都可以大致解释为什么会这样吗?如果我增加否定类别的榜样数量,我会从样本预测(例如更好的预测)中得到与肯定类别相似的东西吗? 关于如何通过对错误分类施加不同的成本或使用LibSVM中的类权重来解决不平衡数据的其他想法也非常开放,尽管我不确定如何正确选择/调整那些数据。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.