如何使用scikit learning计算多类案例的精度，召回率，准确性和f1-得分？

109

我正在研究情绪分析问题，数据看起来像这样：

label instances
    5    1190
    4     838
    3     239
    1     204
    2     127

所以，我的数据是不平衡的，因为1190 instances标有5。对于使用scikit的SVC进行的分类Im 。问题是我不知道如何以正确的方式平衡我的数据，以便准确计算多类案例的精度，查全率，准确性和f1得分。因此，我尝试了以下方法：

第一：

    wclf = SVC(kernel='linear', C= 1, class_weight={1: 10})
    wclf.fit(X, y)
    weighted_prediction = wclf.predict(X_test)

print 'Accuracy:', accuracy_score(y_test, weighted_prediction)
print 'F1 score:', f1_score(y_test, weighted_prediction,average='weighted')
print 'Recall:', recall_score(y_test, weighted_prediction,
                              average='weighted')
print 'Precision:', precision_score(y_test, weighted_prediction,
                                    average='weighted')
print '\n clasification report:\n', classification_report(y_test, weighted_prediction)
print '\n confussion matrix:\n',confusion_matrix(y_test, weighted_prediction)

第二：

auto_wclf = SVC(kernel='linear', C= 1, class_weight='auto')
auto_wclf.fit(X, y)
auto_weighted_prediction = auto_wclf.predict(X_test)

print 'Accuracy:', accuracy_score(y_test, auto_weighted_prediction)

print 'F1 score:', f1_score(y_test, auto_weighted_prediction,
                            average='weighted')

print 'Recall:', recall_score(y_test, auto_weighted_prediction,
                              average='weighted')

print 'Precision:', precision_score(y_test, auto_weighted_prediction,
                                    average='weighted')

print '\n clasification report:\n', classification_report(y_test,auto_weighted_prediction)

print '\n confussion matrix:\n',confusion_matrix(y_test, auto_weighted_prediction)

第三：

clf = SVC(kernel='linear', C= 1)
clf.fit(X, y)
prediction = clf.predict(X_test)


from sklearn.metrics import precision_score, \
    recall_score, confusion_matrix, classification_report, \
    accuracy_score, f1_score

print 'Accuracy:', accuracy_score(y_test, prediction)
print 'F1 score:', f1_score(y_test, prediction)
print 'Recall:', recall_score(y_test, prediction)
print 'Precision:', precision_score(y_test, prediction)
print '\n clasification report:\n', classification_report(y_test,prediction)
print '\n confussion matrix:\n',confusion_matrix(y_test, prediction)


F1 score:/usr/local/lib/python2.7/site-packages/sklearn/metrics/classification.py:676: DeprecationWarning: The default `weighted` averaging is deprecated, and from version 0.18, use of precision, recall or F-score with multiclass or multilabel data or pos_label=None will result in an exception. Please set an explicit value for `average`, one of (None, 'micro', 'macro', 'weighted', 'samples'). In cross validation use, for instance, scoring="f1_weighted" instead of scoring="f1".
  sample_weight=sample_weight)
/usr/local/lib/python2.7/site-packages/sklearn/metrics/classification.py:1172: DeprecationWarning: The default `weighted` averaging is deprecated, and from version 0.18, use of precision, recall or F-score with multiclass or multilabel data or pos_label=None will result in an exception. Please set an explicit value for `average`, one of (None, 'micro', 'macro', 'weighted', 'samples'). In cross validation use, for instance, scoring="f1_weighted" instead of scoring="f1".
  sample_weight=sample_weight)
/usr/local/lib/python2.7/site-packages/sklearn/metrics/classification.py:1082: DeprecationWarning: The default `weighted` averaging is deprecated, and from version 0.18, use of precision, recall or F-score with multiclass or multilabel data or pos_label=None will result in an exception. Please set an explicit value for `average`, one of (None, 'micro', 'macro', 'weighted', 'samples'). In cross validation use, for instance, scoring="f1_weighted" instead of scoring="f1".
  sample_weight=sample_weight)
 0.930416613529

但是，我收到这样的警告：

/usr/local/lib/python2.7/site-packages/sklearn/metrics/classification.py:1172:
DeprecationWarning: The default `weighted` averaging is deprecated,
and from version 0.18, use of precision, recall or F-score with 
multiclass or multilabel data or pos_label=None will result in an 
exception. Please set an explicit value for `average`, one of (None, 
'micro', 'macro', 'weighted', 'samples'). In cross validation use, for 
instance, scoring="f1_weighted" instead of scoring="f1"

如何正确处理我的不平衡数据，以便以正确的方式计算分类器的指标？

— new_with_python
source

那么为什么不在average第三种情况下添加参数呢？

— yangjie

1

@yangjie我不知道。我只是查看文档，但我不理解如何正确使用度量标准来处理不平衡数据。您能否提供更广泛的解释和示例？谢谢！

— new_with_python

164

我认为对于将哪些砝码用于什么有很多困惑。我不确定我是否确切知道让您感到困扰，所以我将涉及不同的话题，请耐心等待;）。

班级重量

来自class_weight参数的权重用于训练分类器。它们不会用于您正在使用的任何度量的计算中：使用不同的类别权重，数字会有所不同，仅仅是因为分类器不同。

基本上，在每个scikit-learn分类器中，都使用类权重来告诉您的模型，类的重要性。这意味着在训练过程中，分类器将付出更多的努力来对权重较高的类进行正确分类。
他们如何做到这一点是特定于算法的。如果您想了解有关SVC如何工作的详细信息，而该文档对您来说没有意义，请随时提及。

指标

有了分类器后，您想知道其效果如何。在这里，你可以使用你所提到的指标：accuracy，recall_score，f1_score...

通常，当班级分布不平衡时，准确性被认为是较差的选择，因为它会给仅预测最频繁班级的模型打高分。

我不会详细说明所有这些指标，但是请注意，除之外accuracy，它们自然地应用于类级别：如您在print分类报告中所见，它们是为每个类定义的。他们依赖诸如true positives或的概念，这些概念false negative要求定义哪个类别是肯定的。

             precision    recall  f1-score   support

          0       0.65      1.00      0.79        17
          1       0.57      0.75      0.65        16
          2       0.33      0.06      0.10        17
avg / total       0.52      0.60      0.51        50

警告

F1 score:/usr/local/lib/python2.7/site-packages/sklearn/metrics/classification.py:676: DeprecationWarning: The 
default `weighted` averaging is deprecated, and from version 0.18, 
use of precision, recall or F-score with multiclass or multilabel data  
or pos_label=None will result in an exception. Please set an explicit 
value for `average`, one of (None, 'micro', 'macro', 'weighted', 
'samples'). In cross validation use, for instance, 
scoring="f1_weighted" instead of scoring="f1".

之所以收到此警告，是因为您使用的是f1得分，召回率和精确度，而未定义应如何计算它们！问题可以改写为：从以上分类报告中，您如何为f1分数输出一个全局数字？你可以：

取每个班级的f1分数的平均值：这就是avg / total上面的结果。也称为宏平均。
使用真实阳性/阴性阴性等的总计数来计算f1-分数（您将每个类别的真实阳性/阴性阴性的总数相加）。又名微平均。
计算f1分数的加权平均值。使用'weighted'在scikit学习会由支持类的权衡F1评分：越要素类有，更重要的F1的得分这个类在计算中。

这是scikit-learn中的3个选项，警告是说您必须选择一个。因此，您必须average为score方法指定一个参数。

选择哪种方法取决于您如何衡量分类器的性能：例如，宏平均不考虑类的不平衡，并且类1的f1分数与类的f1分数一样重要5.但是，如果您使用加权平均，则对于第5类，您将变得更加重要。

这些指标中的整个参数规范目前在scikit-learn中尚不十分清楚，根据文档，它将在0.18版中变得更好。他们正在删除一些不明显的标准行为，并发出警告，以便开发人员注意到它。

计算分数

我要提到的最后一件事（如果您知道它，可以随时跳过它）是，分数只有在根据分类器从未见过的数据进行计算时才有意义。这一点非常重要，因为您获得的用于拟合分类器的数据得分都是完全不相关的。

这是使用的一种方法StratifiedShuffleSplit，它可以随机分配数据（经过改组后），以保留标签的分布。

from sklearn.datasets import make_classification
from sklearn.cross_validation import StratifiedShuffleSplit
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score, classification_report, confusion_matrix

# We use a utility to generate artificial classification data.
X, y = make_classification(n_samples=100, n_informative=10, n_classes=3)
sss = StratifiedShuffleSplit(y, n_iter=1, test_size=0.5, random_state=0)
for train_idx, test_idx in sss:
    X_train, X_test, y_train, y_test = X[train_idx], X[test_idx], y[train_idx], y[test_idx]
    svc.fit(X_train, y_train)
    y_pred = svc.predict(X_test)
    print(f1_score(y_test, y_pred, average="macro"))
    print(precision_score(y_test, y_pred, average="macro"))
    print(recall_score(y_test, y_pred, average="macro"))

希望这可以帮助。

— 迪尔
source

对于多班制，您如何指定班级权重？例如，class_weight={1:10}对于具有3个类的数据意味着什么？

— 阿齐兹Javed

无论如何，有没有获得标签明智的准确性分数？

— Ankur Sinha '18

您能更清楚地解释微工作原理吗？另外，您也没有提及任何有关二进制文件的信息

— 谦虚的

对我来说，分层的混洗造成了问题，所以我转回到显示的火车测试拆分

ValueError: The least populated class in y has only 1 member, which is too few. The minimum number of labels for any class cannot be less than 2.

。火车测试拆分工作正常，但是有人可以帮助我为什么我收到SSS错误消息吗？谢谢。

— Akash Kandpal，

嗨，我测试了您的代码，但我有此错误消息C：\ Users \\ Anaconda3 \ lib \ site-packages \ sklearn \ metrics \ classification.py：976：DeprecationWarning：从版本0.18开始，在使用时将不对二进制输入进行特殊处理平均精度/召回率/ F得分。请使用average ='binary'报告仅积极的课堂表现。“积极的课堂表现”，DeprecationWarning）

— Chedi Bechikh，

73

这里有很多非常详细的答案，但我认为您没有回答正确的问题。据我了解的问题，有两个问题：

我如何为多类问题评分？
我该如何处理不平衡的数据？

1。

可以将scikit-learn中的大多数计分函数用于多类问题和单类问题。例如：

from sklearn.metrics import precision_recall_fscore_support as score

predicted = [1,2,3,4,5,1,2,1,1,4,5] 
y_test = [1,2,3,4,5,1,2,1,1,4,1]

precision, recall, fscore, support = score(y_test, predicted)

print('precision: {}'.format(precision))
print('recall: {}'.format(recall))
print('fscore: {}'.format(fscore))
print('support: {}'.format(support))

这样，您最终得到每个类的有形和可解释的数字。

| Label | Precision | Recall | FScore | Support |
|-------|-----------|--------|--------|---------|
| 1     | 94%       | 83%    | 0.88   | 204     |
| 2     | 71%       | 50%    | 0.54   | 127     |
| ...   | ...       | ...    | ...    | ...     |
| 4     | 80%       | 98%    | 0.89   | 838     |
| 5     | 93%       | 81%    | 0.91   | 1190    |

然后...

2。

...您可以判断出不平衡的数据是否甚至是一个问题。如果代表较少的班级（第1类和第2类）的得分低于训练样本较多的班级（第4类和第5类）的得分，那么您就知道不平衡的数据实际上是个问题，您可以采取相应措施，例如在该线程的其他一些答案中进行了介绍。但是，如果要预测的数据中存在相同的类别分布，那么不平衡的训练数据可以很好地代表数据，因此，不平衡是一件好事。

— wonderkid2
source

1

很棒的帖子，说得好。谢谢

— Alvis

1

嘿，只是一个后续问题：您是如何使用来打印标签的precision_recall_fscore_support？标签是否按顺序打印？

— BigD

@BigD是的，请参阅最底部的scikit-learn.org/stable/modules/generated/…。设置average=None并定义标签，然后为每个指定的标签获取所需的指标。

— wonderkid2

无论如何，有没有获得标签明智的准确性分数？

— Ankur Sinha '18

@trollster我不确定您的意思吗？我不是按标签的准确性分数显示答案吗？

— wonderkid2

16

提出的问题

回答“对于不平衡数据的多类别分类应使用什么度量”这一问题：Macro-F1-measure。也可以使用Macro Precision和Macro Recall，但是它们不像二进制分类那样容易解释，它们已经被合并到F量度中，并且多余的量度使方法比较，参数调整等复杂化。

微观平均对类不平衡很敏感：例如，如果您的方法对大多数常见标签都有效，而完全使其他标签混乱，则微观平均指标将显示出良好的结果。

加权平均不适用于不平衡数据，因为它通过标签计数加权。此外，它很难解释且不受欢迎：例如，在以下我非常建议仔细研究的非常详细的调查中，没有提及这种平均值：

Sokolova，Marina和Guy Lapalme。“对分类任务的绩效指标进行系统分析。” 信息处理与管理45.4（2009）：427-437。

特定于应用程序的问题

但是，回到您的任务，我将研究2个主题：

通常用于您的特定任务的指标-它使（a）与他人比较您的方法，并了解您做错了什么；（b）不要自己探索这一方法并重用他人的发现；
方法的不同错误的成本-例如，您的应用程序的用例可能仅依赖于4星级和5星级审核-在这种情况下，好的指标应仅将这2个标签计算在内。

常用指标。 从文献资料中我可以推断出，有两个主要的评估指标：

精度，例如

Yu，April和Daryl Chang。“使用Yelp业务进行多类情感预测。”

（链接）-请注意，作者使用的评级分布几乎相同，请参见图5。

庞波和李丽娟 “看见星星：利用阶级关系来进行与等级量表有关的情感分类。” 计算语言学协会第四十三届年会论文集。计算语言学协会，2005年。

（链接）

MSE（或更不常见的是，平均绝对误差- -MAE）-例如，

Lee，Moontae和R.Grafe。“带有餐厅评论的多类情感分析。” CS N 224（2010）中的最终项目。

（链接）-他们同时探讨准确性和MSE，并认为后者会更好

帕帕斯，尼古拉斯，Rue Marconi和Andrei Popescu-Belis。“解释星星：基于方面的情感分析的加权多实例学习。” 2014年自然语言处理经验方法会议论文集。EPFL-CONF-200899号。2014。

（链接）-他们利用scikit-learn进行评估和基准评估，并声明其代码可用；但是，我找不到它，所以如果您需要它，请写信给作者，这本书是相当新的，似乎是用Python编写的。

不同错误的代价。如果您更关心避免出现大失误，例如将1星评价转换为5星评价或类似方法，请查看MSE；如果差异很重要，但不是那么重要，请尝试MAE，因为它不会使差异平方；否则保持准确性。

关于方法，而不是指标

尝试使用回归方法，例如SVR，因为它们通常胜过SVC或OVA SVM之类的多类分类器。

— 尼基塔·阿斯特拉坎采夫
source

13

首先，仅使用计数分析来判断您的数据是否不平衡会更加困难。例如：每1000个阳性观察中就有1个只是噪音，错误还是科学突破？你永远不会知道。
因此，最好使用所有可用的知识并明智地选择其状态。

好吧，如果真的不平衡怎么办？
再次-查看您的数据。有时您会发现一两个观察值乘以一百倍。有时创建这种虚假的一类观察很有用。
如果所有数据都是干净的，下一步是在预测模型中使用类权重。

那么多类指标呢？
根据我的经验，通常不会使用您的任何指标。有两个主要原因。
首先：与概率一起使用总是比采用可靠的预测更好（因为如果它们给同一个类，那么您还可以如何分别将0.9和0.6预测模型分开？）
其次：比较预测模型和构建新模型要容易得多仅取决于一项好的指标。
根据我的经验，我可以推荐logloss或MSE（或均方误差）。

如何解决sklearn警告？
只是简单地（如yangjie所注意到的）average使用以下值之一覆盖参数：（'micro'全局计算指标），'macro'（计算每个标签的指标）或'weighted'（与宏相同，但具有自动权重）。

f1_score(y_test, prediction, average='weighted')

在使用默认average值调用指标函数后发出所有警告，'binary'这不适用于多类预测。
祝你好运，并享受机器学习的乐趣！

编辑：
我发现了另一个回答者建议，建议改用我无法同意的回归方法（例如SVR）。据我所知，甚至没有多类回归。是的，多标签回归有很大的不同，是的，在某些情况下，有可能在回归和分类之间进行切换（如果类以某种方式排序），但这种情况很少见。

我建议（在scikit-learn范围内）尝试另一个非常强大的分类工具：梯度增强，随机森林（我最喜欢），KNeighbors等。

之后，您可以计算预测之间的算术平均值或几何平均值，并且大多数时候您将获得更好的结果。

final_prediction = (KNNprediction * RFprediction) ** 0.5

— 弗拉德·米罗诺夫（Vlad Mironov）
source

1

>“在回归和分类之间切换（如果类以某种方式排序，但很少见）”是这样的情况：5> 4> 3> 2>1。建议您看一下此任务的论文-有针对任务的许多回归和分类方法（有时在同一工作中）。

— Nikita Astrakhantsev

那么它甚至不是多类分类，而是简单的回归。

— 弗拉德·米罗诺夫

是的，从内部或从ML的角度来看，它是回归，但在最后一步，我们将回归结果转换为标签，因此它是多类分类-从用户或应用程序的角度来看。

— Nikita Astrakhantsev