Questions tagged «multiclass-classification»

6
多类别分类设置中的微观平均与宏观平均表现
我正在尝试使用3个类的多类分类设置。类分布偏斜,大多数数据属于3类中的1种。(类别标签为1,2,3,其中67.28%的数据属于类别标签1,属于类别2的数据为11.99%,其余属于类别3) 我正在为此数据集训练一个多类分类器,并且获得了以下性能: Precision Recall F1-Score Micro Average 0.731 0.731 0.731 Macro Average 0.679 0.529 0.565 我不确定为什么所有的Micro平均水平。性能相等,这也是为什么Macro的平均性能如此低的原因。


1
我应该使用多少个LSTM细胞?
是否有关于我应使用的LSTM电池的最小,最大和“合理”数量的经验法则(或实际规则)?具体来说,我与TensorFlow和property 有关的BasicLSTMCell有关num_units。 请假设我有以下定义的分类问题: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如,训练示例的数量应该大于: 4*((n+1)*m + m*m)*c c单元数在哪里?我基于此:如何计算LSTM网络的参数数量?据我了解,这应该给出参数的总数,该总数应少于训练示例的数量。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

1
文本分类问题:Word2Vec / NN是最好的方法吗?
我正在设计一个系统,使给定的一段文本能够对其进行分类并确定上下文: 经过用户生成的文本段落(如评论/问题/答案)的培训 训练集中的每个项目都将标有。因此,例如(“类别1”,“文本段落”) 将有数百个类别 建立这样一个系统的最佳方法是什么?我一直在研究几个不同的选项,以下是可能的解决方案的列表。Word2Vec / NN目前是最佳解决方案吗? 递归神经张量网络馈送了平均Word2Vec数据 RNTN和段落向量(https://cs.stanford.edu/~quocle/paragraph_vector.pdf)? 深度信仰网络中使用的TF-IDF TF-IDF和Logistic回归 单词袋和朴素贝叶斯分类


4
SGDClassifier:具有先前未知标签的在线学习/ partial_fit
我的训练集包含大约50k项,我可以通过它们进行初步学习。每周添加约5k条目;但“消失”的数量相同(因为用户数据必须在一段时间后删除)。 因此,我使用在线学习是因为以后无法访问完整的数据集。目前,我正在使用一个SGDClassifier有效的工具,但我遇到了一个大问题:新类别正在出现,现在我不能再使用模型了,因为它们不在最初的模型中fit。 有没有办法使用SGDClassifier其他模型?深度学习? 我现在是否必须从头开始都没关系(即使用以外的东西SGDClassifier),但是我需要一些能够使用新标签进行在线学习的东西。

1
数据不平衡导致多类数据集分类错误
我正在研究文本分类,这里有39个类别/类和850万条记录。(未来的数据和类别将会增加)。 我的数据的结构或格式如下。 ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary Camera:12 MP Case cover Honor 8 | Color:transparent,Height:15 mm,width:22 mm | 212 Ruggers Men's T-Shirt | Size:L,ideal for:men,fit:regular, | 111 sleeve:half sleeve Optimum Nutrition Gold | …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.