Questions tagged «multilabel»


3
多标签数据准确性的衡量标准是什么?
考虑一个为您提供KnownLabel矩阵和PredictedLabel矩阵的方案。我想相对于KnownLabel矩阵来衡量PredictedLabel矩阵的优势。 但是这里的挑战是,KnownLabel矩阵只有几行只有一个1,而其他几行却有很多1(这些实例被多重标记)。下面给出了KnownLabel矩阵的示例。 A =[1 0 0 0 0 1 0 0 0 1 1 0 0 0 1 1 0 1 1 1] 在上面的矩阵中,数据实例1和2是单个标签数据,数据实例3和4是两个标签数据,数据实例5是三个标签数据。 现在,我已经使用算法对数据实例的PredictedLabel矩阵进行了处理。 我想知道各种可用于衡量PredictedLabel矩阵相对于KnownLabel矩阵的良好性的度量。 我可以将它们之间的frobeinus规范差异视为衡量标准之一。但是我正在寻找诸如准确性(=Correctly_predicted_instancetotal_instance)(=Correctly_predicted_instancetotal_instance)(= \frac{\text{Correctly_predicted_instance}}{\text{total_instance}}) 在这里,我们如何为多个数据实例定义?Correctly_predictedCorrectly_predicted\rm Correctly\_predicted

2
如何在多标签分类器上使用scikit-learn的交叉验证功能
我正在一个5个类的数据集上测试不同的分类器,每个实例可以属于一个或多个这些类,因此我正在使用scikit-learn的多标签分类器sklearn.multiclass.OneVsRestClassifier。现在,我想使用进行交叉验证sklearn.cross_validation.StratifiedKFold。这将产生以下错误: Traceback (most recent call last): File "mlfromcsv.py", line 93, in <module> main() File "mlfromcsv.py", line 77, in main test_classifier_multilabel(svm.LinearSVC(), X, Y, 'Linear Support Vector Machine') File "mlfromcsv.py", line 44, in test_classifier_multilabel scores = cross_validation.cross_val_score(clf_ml, X, Y_list, cv=cv, score_func=metrics.precision_recall_fscore_support, n_jobs=jobs) File "/usr/lib/pymodules/python2.7/sklearn/cross_validation.py", line 1046, in cross_val_score X, y = check_arrays(X, …

2
scikit上的多标签分类指标
我正在尝试构建多标签分类器,以便使用scikit将主题分配给现有文档 我正在处理我的文档,将它们通过传递给TfidfVectorizer标签,MultiLabelBinarizer并OneVsRestClassifier以SGDClassifier作为估算器创建了。 但是,当测试我的分类器时,我只能得到0.29的分数,对于类似的问题,从我的阅读中得出的分数非常低。我在TfidfVectorizer上尝试了多个选项,例如停用词,单字组,词干,似乎没有什么改变结果。 我还习惯于GridSearchCV为估算器获取最佳参数,目前我对下一步的想法一无所知。 同时,根据我的理解,我无法使用它scikit.metrics,OneVsRestClassifier那么我如何获得一些指标(F1,Precision,Recall等)以找出问题所在? 我的数据语料库可能有问题吗? 更新:我也尝试使用CountVectorizer和HashingVectorizer管道化它们,TfidfTransformer但结果相似。所以我猜想词袋方法在标记化领域中表现最好,其余的取决于分类器...

2
具有多个输出的随机森林是否可能/可行?
随机森林(RF)是一种竞争性的数据建模/挖掘方法。 RF模型具有一个输出-输出/预测变量。 用RF建模多个输出的简单方法是为每个输出变量构造一个RF。因此,我们有N个独立的模型,并且在输出变量之间存在相关性的地方,我们将具有冗余/重复的模型结构。确实,这可能非常浪费。通常,更多的模型变量意味着更多的拟合模型(较少的泛化)。不知道这是否适用于此,但可能适用。 原则上我们可以有一个带有多个输出的RF。预测变量现在是一个向量(n元组)。现在,每个决策树中的决策节点都基于阈值向量拆分目标/预测向量集,我认为该阈值被视为n维空间中的一个平面,因此我们可以确定阈值的哪一侧向量每个目标向量都打开。 决策拆分每一侧的最佳预测值是为每一侧的向量计算的平均值(质心)。 在处理单个变量时找到最佳分割点很简单,而且计算速度快/效率高。对于n元组,我们无法找到最佳拆分(或者至少随着N的增加,它在计算上变得不可行),但是我们可以使用Monte Carlo类型方法(或Monte Carlo和Local的某种混合)找到接近最佳拆分梯度遍历)。 这真的行得通吗?也就是说,它是否可以仅映射训练对而不进行概括?此技术是否已经以其他名称存在? 您可能还需要考虑这与诸如限制玻尔兹曼机器(RBM)和深度信念网络之类的神经网络之间的关系。

2
如何将神经网络应用于多标签分类问题?
描述: 让问题域为文档分类,其中存在一组特征向量,每个特征向量属于一个或多个类。例如,文档doc_1可能属于Sports和English类别。 题: 使用神经网络进行分类,特征向量的标签是什么?它是构成所有类的向量,以便对不相关的类赋予0值,对相关的类赋予1值吗?因此,如果类标签的列表为[Sports, News, Action, English, Japanese],那么对于文档doc_1,标签将为[1, 0, 0, 1, 0]?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.