Questions tagged «unbalanced-classes»

5
我应该选择“平衡”数据集还是“代表性”数据集?
我的“机器学习”任务是将良性Internet流量与恶意流量分开。在现实世界中,大多数(例如90%或更多)的Internet流量都是良性的。因此,我觉得我也应该选择类似的数据设置来训练我的模型。但是我碰到了一份或两篇研究论文(在我的工作领域),他们使用“类平衡”数据方法来训练模型,这意味着良性和恶意流量实例的数量相等。 通常,如果我正在构建机器学习模型,我应该选择一个代表现实世界问题的数据集,还是一个更适合于构建模型的平衡数据集(因为某些分类器在类不平衡方面表现不佳,或者由于其他原因(我不知道)? 有人可以揭示更多的光线优点和缺点都的选择,以及如何决定去哪个选哪个?

4
培训高度不平衡的数据集的快速指南
我在训练集中有大约1000个正样本和10000个负样本的分类问题。因此,该数据集非常不平衡。普通随机森林只是试图将所有测试样本标记为多数类。 这里给出了有关子采样和加权随机森林的一些很好的答案:用高度偏向的数据集训练树群有什么意义? 除RF之外,还有哪些分类方法可以最好地解决问题?


4
用高度偏向的数据集训练树组合有什么意义?
我有一个高度偏向的二进制数据集-否定类的示例比肯定类多1000倍。我想在此数据上训练树合奏(例如超随机树或随机森林),但是很难创建包含足够的正类示例的训练数据集。 采取分层抽样方法以规范阳性和阴性样本数量的含义是什么?换句话说,例如人为地增加(通过重采样)训练集中肯定的班级示例的数量是一个坏主意吗?

2
您如何将SMOTE应用于文本分类?
综合少数族裔过采样技术(SMOTE)是用于不平衡数据集问题的过采样技术。到目前为止,我已经知道如何将其应用于通用的结构化数据。但是可以将其应用于文本分类问题吗?您需要对数据的哪一部分进行超采样?已经有另一个问题,但是没有答案。我在哪里可以学习入门呢?

1
我应该使用多少个LSTM细胞?
是否有关于我应使用的LSTM电池的最小,最大和“合理”数量的经验法则(或实际规则)?具体来说,我与TensorFlow和property 有关的BasicLSTMCell有关num_units。 请假设我有以下定义的分类问题: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如,训练示例的数量应该大于: 4*((n+1)*m + m*m)*c c单元数在哪里?我基于此:如何计算LSTM网络的参数数量?据我了解,这应该给出参数的总数,该总数应少于训练示例的数量。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
班级不平衡-如何最大程度地减少误报?
我有一个具有二进制类属性的数据集。有623个类别为+1的实例(癌症阳性)和101,671个实例为-1的实例(癌症阴性)。 我尝试了各种算法(朴素贝叶斯,随机森林,AODE,C4.5),并且所有算法都有不可接受的假负比率。随机森林具有最高的总体预测准确度(99.5%)和最低的假阴性率,但仍错过了79%的阳性分类(即未能检测到79%的恶性肿瘤)。 有什么想法可以改善这种情况吗? 谢谢!
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.