数据科学 multiclass-classification

6

我正在尝试使用3个类的多类分类设置。类分布偏斜，大多数数据属于3类中的1种。（类别标签为1,2,3，其中67.28％的数据属于类别标签1，属于类别2的数据为11.99％，其余属于类别3）我正在为此数据集训练一个多类分类器，并且获得了以下性能： Precision Recall F1-Score Micro Average 0.731 0.731 0.731 Macro Average 0.679 0.529 0.565 我不确定为什么所有的Micro平均水平。性能相等，这也是为什么Macro的平均性能如此低的原因。

102 multiclass-classification evaluation

4

使用XGBoost的不平衡多类数据

我有3个此类的班级： Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 我正在使用xgboost分类。我知道有一个名为的参数scale_pos_weight。但是如何处理“多类”情况，如何正确设置呢？

20 classification xgboost multiclass-classification unbalanced-classes

1

我应该使用多少个LSTM细胞？

是否有关于我应使用的LSTM电池的最小，最大和“合理”数量的经验法则（或实际规则）？具体来说，我与TensorFlow和property 有关的BasicLSTMCell有关num_units。请假设我有以下定义的分类问题： t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如，训练示例的数量应该大于： 4*((n+1)*m + m*m)*c c单元数在哪里？我基于此：如何计算LSTM网络的参数数量？据我了解，这应该给出参数的总数，该总数应少于训练示例的数量。

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

1

文本分类问题：Word2Vec / NN是最好的方法吗？

我正在设计一个系统，使给定的一段文本能够对其进行分类并确定上下文：经过用户生成的文本段落（如评论/问题/答案）的培训训练集中的每个项目都将标有。因此，例如（“类别1”，“文本段落”）将有数百个类别建立这样一个系统的最佳方法是什么？我一直在研究几个不同的选项，以下是可能的解决方案的列表。Word2Vec / NN目前是最佳解决方案吗？递归神经张量网络馈送了平均Word2Vec数据 RNTN和段落向量（https://cs.stanford.edu/~quocle/paragraph_vector.pdf）？深度信仰网络中使用的TF-IDF TF-IDF和Logistic回归单词袋和朴素贝叶斯分类

10 neural-network text-mining multiclass-classification word-embeddings

2

Keras可能在最后一层使用多个“ Softmax”吗？

是否可以在Keras的最后一层实现多个softmax？因此，节点1-4的总和= 1; 5-8 = 1; 等等我应该选择其他网络设计吗？

10 machine-learning keras multiclass-classification

4

SGDClassifier：具有先前未知标签的在线学习/ partial_fit

我的训练集包含大约50k项，我可以通过它们进行初步学习。每周添加约5k条目；但“消失”的数量相同（因为用户数据必须在一段时间后删除）。因此，我使用在线学习是因为以后无法访问完整的数据集。目前，我正在使用一个SGDClassifier有效的工具，但我遇到了一个大问题：新类别正在出现，现在我不能再使用模型了，因为它们不在最初的模型中fit。有没有办法使用SGDClassifier其他模型？深度学习？我现在是否必须从头开始都没关系（即使用以外的东西SGDClassifier），但是我需要一些能够使用新标签进行在线学习的东西。

9 multiclass-classification online-learning

1

数据不平衡导致多类数据集分类错误

我正在研究文本分类，这里有39个类别/类和850万条记录。（未来的数据和类别将会增加）。我的数据的结构或格式如下。 ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary Camera:12 MP Case cover Honor 8 | Color:transparent,Height:15 mm,width:22 mm | 212 Ruggers Men's T-Shirt | Size:L,ideal for:men,fit:regular, | 111 sleeve:half sleeve Optimum Nutrition Gold | …

9 machine-learning python classification scikit-learn multiclass-classification

Questions tagged «multiclass-classification»