数据科学 unbalanced-classes

5

我的“机器学习”任务是将良性Internet流量与恶意流量分开。在现实世界中，大多数（例如90％或更多）的Internet流量都是良性的。因此，我觉得我也应该选择类似的数据设置来训练我的模型。但是我碰到了一份或两篇研究论文（在我的工作领域），他们使用“类平衡”数据方法来训练模型，这意味着良性和恶意流量实例的数量相等。通常，如果我正在构建机器学习模型，我应该选择一个代表现实世界问题的数据集，还是一个更适合于构建模型的平衡数据集（因为某些分类器在类不平衡方面表现不佳，或者由于其他原因（我不知道）？有人可以揭示更多的光线优点和缺点都的选择，以及如何决定去哪个选哪个？

48 machine-learning dataset unbalanced-classes

4

培训高度不平衡的数据集的快速指南

我在训练集中有大约1000个正样本和10000个负样本的分类问题。因此，该数据集非常不平衡。普通随机森林只是试图将所有测试样本标记为多数类。这里给出了有关子采样和加权随机森林的一些很好的答案：用高度偏向的数据集训练树群有什么意义？除RF之外，还有哪些分类方法可以最好地解决问题？

29 machine-learning classification dataset unbalanced-classes

4

使用XGBoost的不平衡多类数据

我有3个此类的班级： Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 我正在使用xgboost分类。我知道有一个名为的参数scale_pos_weight。但是如何处理“多类”情况，如何正确设置呢？

20 classification xgboost multiclass-classification unbalanced-classes

4

用高度偏向的数据集训练树组合有什么意义？

我有一个高度偏向的二进制数据集-否定类的示例比肯定类多1000倍。我想在此数据上训练树合奏（例如超随机树或随机森林），但是很难创建包含足够的正类示例的训练数据集。采取分层抽样方法以规范阳性和阴性样本数量的含义是什么？换句话说，例如人为地增加（通过重采样）训练集中肯定的班级示例的数量是一个坏主意吗？

14 machine-learning feature-selection unbalanced-classes

2

您如何将SMOTE应用于文本分类？

综合少数族裔过采样技术（SMOTE）是用于不平衡数据集问题的过采样技术。到目前为止，我已经知道如何将其应用于通用的结构化数据。但是可以将其应用于文本分类问题吗？您需要对数据的哪一部分进行超采样？已经有另一个问题，但是没有答案。我在哪里可以学习入门呢？

13 unbalanced-classes text smote

1

我应该使用多少个LSTM细胞？

是否有关于我应使用的LSTM电池的最小，最大和“合理”数量的经验法则（或实际规则）？具体来说，我与TensorFlow和property 有关的BasicLSTMCell有关num_units。请假设我有以下定义的分类问题： t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如，训练示例的数量应该大于： 4*((n+1)*m + m*m)*c c单元数在哪里？我基于此：如何计算LSTM网络的参数数量？据我了解，这应该给出参数的总数，该总数应少于训练示例的数量。

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

班级不平衡-如何最大程度地减少误报？

我有一个具有二进制类属性的数据集。有623个类别为+1的实例（癌症阳性）和101,671个实例为-1的实例（癌症阴性）。我尝试了各种算法（朴素贝叶斯，随机森林，AODE，C4.5），并且所有算法都有不可接受的假负比率。随机森林具有最高的总体预测准确度（99.5％）和最低的假阴性率，但仍错过了79％的阳性分类（即未能检测到79％的恶性肿瘤）。有什么想法可以改善这种情况吗？谢谢！

11 classification random-forest decision-trees unbalanced-classes

Questions tagged «unbalanced-classes»