Questions tagged «scoring-rules»

计分规则用于评估预测概率或更准确地说是预测密度的准确性。评分规则的示例包括对数,布里尔,球面,排名概率以及戴维德-塞巴斯蒂安分数和预测偏差。

7
为什么准确性不是评估分类模型的最佳方法?
这是一个一般性问题,在这里多次被间接问到,但缺少一个权威性的答案。对此有详细的答案将是很棒的参考。 准确度(正确分类在所有分类中所占的比例)是非常简单且非常“直观”的度量,但是对于不平衡的数据而言可能不是一个很好的度量。为什么我们的直觉会误导我们,并且此措施还有其他问题?

3
班级失衡问题的根本原因是什么?
最近,我一直在思考机器/统计学习中的“班级不平衡问题”,并且越来越深地感觉到我只是不了解发生了什么。 首先让我定义(或尝试)定义我的术语: 机器/统计学习中的类不平衡问题是观察到,当0类与1类的比例非常不正确时,某些二进制分类算法(*)不能很好地执行。 因此,例如,在上面的示例中,如果每一个类有100个类,那么我会说类不平衡为到或。0001111111001001001%1%1\% 我见过的大多数问题陈述都缺乏我认为足够的资格(什么模型在挣扎,问题如何失衡),这是我感到困惑的原因之一。 对机器/统计学习中的标准文本的调查几乎没有: 统计学习和统计学习入门的要素在索引中不包含“班级失衡”。 用于预测数据分析的机器学习在索引中也不包含“类不平衡”。 墨菲的机器学习:概率观点 的确在索引中包含“类不平衡*。参考是关于SVM的一节,我在其中找到了以下诱人的评论: 值得记住的是,所有这些困难,以及为解决这些困难而提出的大量启发式方法,都从根本上出现,因为SVM无法使用概率对不确定性进行建模,因此它们的输出得分在各个类别之间不具有可比性。 此评论确实符合我的直觉和经验:在我以前的工作中,我们通常将逻辑回归和梯度增强树模型(以最小化二项式对数似然性)拟合到不平衡数据(类不平衡程度为),在性能上没有明显的问题。1%1%1\% 我已经(在某处)阅读了基于分类树的模型(树本身和随机森林)也确实遭受了类不平衡问题的困扰。从某种意义上讲,这会使水有些混乱,树木确实有返回概率:在树的每个终端节点中目标类的投票记录。 因此,总的来说,我真正想要的是对导致班级失衡问题(如果存在)的力量的概念性理解。 我们使用错误选择的算法和惰性默认分类阈值对自己做了什么吗? 如果我们始终拟合优化适当评分标准的概率模型,它会消失吗?换句话说,原因仅仅是损失函数的选择不正确,即基于硬分类规则和整体准确性评估模型的预测能力吗? 如果是这样,那么没有优化适当评分规则的模型就没有用(或者至少没有用处)吗? (*)分类是指适合二进制响应数据的任何统计模型。我没有假设我的目标是对一个班级或另一个班级进行艰巨的任务,尽管可能是这样。

1
交叉验证泊松模型的误差度量
我正在交叉验证试图预测计数的模型。如果这是二进制分类问题,那么我将计算出不匹配的AUC,如果这是回归问题,则将计算出不匹配的RMSE或MAE。 对于Poisson模型,我可以使用哪些误差度量来评估样本外预测的“准确性”?是否存在AUC的Poisson扩展,可以查看预测对实际值的排序程度? 似乎很多Kaggle竞赛都在使用根均方根平方误差或RMLSE来进行计数(例如,一次yelp审查将获得的有用票数或患者在医院花费的天数)。 /编辑:我一直在做的一件事是计算预测值的十分之一,然后查看实际计数,并按分位数进行分组。如果十分位数1低,十分位数10高且两者之间的十分位数都在增加,则我一直将该模型称为“好”,但是我一直难以量化此过程,并且我相信会有更好的方法方法。 /编辑2:我正在寻找一个公式,该公式采用预测值和实际值并返回一些“错误”或“准确性”指标。我的计划是在交叉验证过程中根据折叠数据计算此函数,然后将其用于比较各种模型(例如,泊松回归,随机森林和GBM)。 例如,一个这样的函数是RMSE = sqrt(mean((predicted-actual)^2))。另一个这样的功能是AUC。这两个函数似乎都不适合泊松数据。

2
什么时候使用不正确的评分规则?
Merkle&Steyvers(2013)写道: 为了正式定义适当的评分规则,令为具有真正成功概率的伯努利试验的概率预测。正确的评分规则是如果其期望值最小的度量。FFfdddpppF= pF=pf = p 我认为这很好,因为我们希望鼓励预报员生成诚实地反映其真实信念的预报,而又不想给他们不利的动机以其他方式这样做。 在现实世界中,有没有适合使用不正确评分规则的示例? 参考文献 Merkle,EC和Steyvers,M.(2013年)。选择严格正确的评分规则。决策分析,10(4),292-304

6
如何在ROC AUC和F1分数之间进行选择?
我最近完成了一场Kaggle比赛,根据比赛要求使用了roc auc得分。在进行此项目之前,我通常使用f1分数作为衡量模型性能的指标。展望未来,我想知道如何在这两个指标之间进行选择?什么时候使用,它们各自的优缺点是什么? 顺便说一句,我在这里阅读了这篇文章AUC和F1评分之间有什么区别?,但没有告诉我何时使用。 在此先感谢您的帮助!

1
在适当的评分规则中进行选择
有关正确评分规则的大多数资源都提到了许多不同的评分规则,例如对数损失,Brier评分或球形评分。但是,它们之间通常没有太多指导。(图表A:维基百科。) 选择使对数得分最大的模型对应于选择最大似然模型,这似乎是使用对数评分的一个很好的论据。对于Brier或球形评分或其他评分规则是否有类似的理由?为什么有人使用这些评分之一而不是对数评分?

3
我们如何判断Nate Silver的预测的准确性?
首先,他给出了结果的可能性。因此,举例来说,他对美国大选的预测目前为克林顿82%,特朗普18%。 现在,即使特朗普获胜,我怎么不知道他应该赢得的不仅仅是18%的时间? 另一个问题是他的概率随时间变化。因此,在7月31日,特朗普和克林顿之间的差距几乎达到了50:50。 我的问题是,鉴于他每天在同一事件中具有相同结果并具有不同结果的概率不同,我如何衡量他根据当日可用的信息做出预测的每一天的准确性?

1
AUC是半正确的评分规则意味着什么?
正确的计分规则是“真实”模型最大化的规则,并且不允许“对冲”或对系统进行博弈(故意报告不同结果,因为该模型的真实信念是提高分数)。石棉分数是适当的,准确性(正确分类的比例)是不适当的,并且经常受到阻碍。有时我会看到AUC被称为半正确评分规则,这使其准确性不完全虚假,但不如适当规则敏感(例如,此处/stats//a/90705/53084)。 半正确评分规则是什么意思?它在某处定义吗?

1
在二进制分类设置中,准确性是否是不正确的评分规则?
我最近一直在学习针对概率分类器的正确评分规则。该网站上的多个主题强调了准确性是不正确的评分规则,不应将其用于评估概率模型(如逻辑回归)生成的预测的质量。 但是,我阅读的许多学术论文都给出了误分类的损失,以此作为二进制分类设置中(非严格)正确评分规则的一个示例。我能找到的最清晰的解释是在本文的第7页底部。据我所知,使分类错误的损失最小化等于使准确性最大化,并且本文中的方程式很直观。 例如:使用本文的表示法,如果感兴趣类别的真实条件概率(给定某些特征向量x)为η= 0.7,则任何预测q > 0.5的预期损失R(η| q)= 0.7(0)+ 0.3(1)= 0.3,则任何q 0.5都将具有0.7的预期损失。因此,损失函数在q =η= 0.7时将最小化,因此是适当的;从那里到真正条件概率和预测整个范围的泛化似乎很简单。≤≤\leq 假设以上计算和陈述正确无误,那么最小值的缺点就很明显,所有高于0.5的预测均具有相同的最小预期损失。我仍然没有理由在诸如log得分,Brier得分等传统方法上使用准确性。但是,在二进制环境中评估概率模型时,说准确性是一个正确的评分规则是正确的吗?错误-是我对分类错误的理解,还是将其等同于准确性?

2
在校准概率模型时如何选择最佳箱宽?
背景:这里有一些很棒的问题/答案,如何校准可预测结果发生概率的模型。例如 Brier分数,并将其分解为分辨率,不确定性和可靠性。 标定图和等渗回归。 这些方法通常需要对预测的概率使用分箱方法,以便通过取平均结果在分箱上使结果(0,1)的行为平滑。 问题: 但是,我找不到任何有关如何选择纸槽宽度的信息。 问题:如何选择最佳纸槽宽度? 尝试:正在使用的两种常见的料箱宽度似乎是: 等宽合并,例如10个合并,每个合并覆盖间隔[0,1]的10%。 Tukey的分箱方法在这里讨论。 但是,如果有兴趣在预测概率最不正确的区间中找到间隔,那么这些垃圾箱的选择是否是最佳选择?

1
平均绝对误差的名称类似于Brier分数?
昨天的问题是确定模型的准确性,该模型估计事件的概率使我对概率评分感到好奇。 的石南木得分 是均方误差度量。类似的平均绝对错误性能是否测量 也有名字吗1N∑i=1N(predictioni−referencei)21N∑i=1N(predictioni−referencei)2\frac{1}{N}\sum\limits _{i=1}^{N}(prediction_i - reference_i)^2 1N∑i=1N|predictioni−referencei|1N∑i=1N|predictioni−referencei|\frac{1}{N}\sum\limits _{i=1}^{N}|prediction_i - reference_i|

1
确定估计事件概率的模型的准确性
我正在为一个具有两个结果a和b的事件建模。我创建了一个模型,该模型估计a或b发生的可能性(即模型将计算a发生的可能性为40%,b发生的可能性为60%)。 根据模型的估算,我在试验结果方面有大量记录。我想量化模型使用此数据的准确性-这有可能吗?

3
如何选择最佳指标来测量校准?
我编程并进行测试驱动的开发。在更改代码后,我将运行测试。有时他们成功,有时他们失败。在我运行测试之前,我写下一个从0.01到0.99的数字,以表示我相信测试会成功。 我想知道我在预测测试成功还是失败方面是否有所进步。如果我可以跟踪我是否更擅长预测测试在星期一还是星期五成功,那也将是很好的。我想知道,如果我预测测试成功的能力与我跟踪的其他指标相关。 剩下的工作就是选择正确的指标。在超级预测中,Philip Tetlock建议使用Brier分数来衡量专家的校准水平。文献中提出的另一种度量是对数评分规则。还有其他可能的候选人。 如何确定要使用的指标?是否有理由赞成一种计分规则而不是其他计分规则?

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
什么时候合适的评分规则可以更好地估计分类设置中的泛化?
解决分类问题的一种典型方法是识别一类候选模型,然后使用诸如交叉验证之类的过程执行模型选择。通常,人们会选择精度最高的模型,或者选择一些编码特定问题信息的相关函数,例如。FβFβ\text{F}_\beta 假设最终目标是产生一个准确的分类器(准确度的定义再次取决于问题,则取决于问题),在哪种情况下,最好使用适当的评分规则来进行模型选择,而不是诸如准确性,准确性,召回率之类的不正确内容等等?此外,让我们忽略模型复杂性的问题,并假设我们认为所有模型具有同等可能性。 以前我不会说。从形式上讲,我们知道分类比回归[1],[2]更容易解决,并且我们可以得出前者比后者()更严格的界限。此外,在某些情况下,尝试准确匹配概率可能会导致错误的决策边界或过度拟合。但是,基于此处的对话和社区对此类问题的投票方式,我一直对此观点提出质疑。∗∗* 露芙·德沃罗伊。模式识别的概率论。卷 31. springer,1996年,第6.7节 Kearns,Michael J.和Robert E. Schapire。高效无分布学习概率概念。计算机科学基础,1990年。会议论文集,第31届年度研讨会。IEEE,1990年。 (∗)(∗)(*)这句话可能有点草率。我具体是指给定形式为带标签数据,其中和,它似乎更容易估计比准确估计的条件概率判定边界。S={(x1,y1),…,(xn,yn)}S={(x1,y1),…,(xn,yn)}S = \{(x_1, y_1), \ldots, (x_n, y_n)\}xi∈Xxi∈Xx_i \in \mathcal{X}yi∈{1,…,K}yi∈{1,…,K}y_i \in \{1, \ldots, K\}
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.