Questions tagged «roc»

接收器工作特性,也称为ROC曲线。

1
不平衡数据集的ROC曲线
考虑输入矩阵和二进制输出y。XXXyyy 衡量分类器性能的一种常用方法是使用ROC曲线。 在ROC图中,对角线是从随机分类器获得的结果。在输出不平衡的情况下,可以选择具有不同概率的0或1来改善随机分类器的性能。yyy000111 如何在ROC曲线图中表示此类分类器的性能?我想应该是一条具有不同角度的直线,而不是对角线了吗?

2
d素数具有100%的命中率概率和0%的虚警率
我想为涉及检测新旧项目的存储任务计算d素数。我的问题是某些受试者的命中率为1和/或错误警报率为0,这使概率分别为100%和0%。 对于式d素是d' = z(H) - z(F),在这里z(H)和z(F)分别命中率和假警报,的Z转换。 为了计算z变换,我使用Excel函数NORMSINV(即z(H)=NORMSINV(hit rate))。但是,如果命中率或误报警率分别为1或0,该函数将返回错误。据我了解,这是因为z变换指示ROC曲线下的面积,在数学上不允许100%或0%的概率。在这种情况下,我不确定如何为具有天花板表现的拍摄对象计算d'。 一个网站建议用1-1 /(2N)和1 / 2N替换1和0比率,其中N为最大点击和错误警报数。另一个网站说“ H或F都不可以是0或1(如果是,请向上或向下稍微调整一下”)。这似乎是任意的。是否有人对此有意见或想向我指出正确的资源?

1
解释PR曲线下的面积
我目前正在比较三种方法,并且我以Accuracy,auROC和auPR作为指标。我有以下结果: 方法A-acc:0.75,auROC:0.75,auPR:0.45 方法B-acc:0.65,auROC:0.55,auPR:0.40 方法C-acc:0.55,auROC:0.70,auPR:0.65 我对准确性和auROC有很好的理解(要记得很好,我经常想出一个句子,例如“ auROC =很好地表征预测阳性学生的能力”,而并非完全正确的话可以帮助我记住)。我从来没有过auPR数据,而在我了解它是如何构建的时,我无法理解它的背后。 实际上,我无法理解为什么方法C的auPR得分非常高,而准确性和auPR却差/平均。 如果有人能通过简单的解释帮助我更好地理解它,那将是非常不错的。谢谢。

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
如何使用Cox模型在R中进行ROC分析
我创建了一些Cox回归模型,我想看看这些模型的性能如何,我认为类似于本文使用的ROC曲线或c统计量可能有用: JN Armitage och JH van der Meulen,“使用行政数据和皇家外科医学院的查尔森评分来鉴定手术患者的合并症”,《英国外科杂志》,第1卷。97,数字 5,ss。772-781,2010年下半年。 阿米蒂奇采用Logistic回归,但我不知道是否有可能使用来自生存包模式,survivalROC给这个是可能的暗示,但我无法弄清楚如何得到这工作与常规Cox回归。 如果有人向我展示如何在此示例中进行ROC分析,我将不胜感激: library(survival) data(veteran) attach(veteran) surv <- Surv(time, status) fit <- coxph(surv ~ trt + age + prior, data=veteran) summary(fit) 如果可能的话,我将感谢原始的c静态输出和一个漂亮的图表 谢谢! 更新资料 非常感谢您的回答。@Dwin:我只是想确保在选择答案之前我已经理解了。 据我理解,根据DWin的建议进行的计算: library(survival) library(rms) data(veteran) fit.cph <- cph(surv ~ trt + age + prior, data=veteran, x=TRUE, y=TRUE, surv=TRUE) …
10 r  survival  roc 

2
使用AUC的理由?
特别是在机器学习文献的面向计算机科学的方面,AUC(接收方操作员特征曲线下的区域)是评估分类器的常用标准。使用AUC有什么理由?例如,是否存在一个特定的损失函数,其最佳决策是具有最佳AUC的分类器?

1
您如何生成ROC曲线以进行留一法交叉验证?
例如,当执行5倍交叉验证时,通常针对5倍的每一个都计算一条单独的ROC曲线,通常乘以带有std的平均ROC曲线。开发。显示为曲线厚度。 但是,对于LOO交叉验证,每个折叠中只有一个测试数据点,为该单个数据点计算ROC“曲线”似乎并不明智。 我一直在获取所有测试数据点(连同它们单独计算的p值)并将它们汇总到一个大集合中,以计算单个ROC曲线,但这在统计学上是洁行的吗? 当每个折叠中的数据点数为1时(如LOO交叉验证的情况),采用ROC分析的正确方法是什么?

2
结合敏感性和特异性的分类器性能指标?
我有2个类别的标签数据,正在使用多个分类器对其进行分类。并且数据集是很好平衡的。在评估分类器的性能时,我需要考虑分类器在确定真实肯定因素和真实否定因素方面的准确性。因此,如果我使用准确性,并且如果分类器偏向正值并将所有分类都归为正值,那么即使它未能对任何真实的负数进行分类,我也会获得约50%的准确性。此属性扩展到精度和召回率,因为它们仅关注一个类,而后又关注F1评分。(这是我什至从本文中了解的内容,例如“ 超越准确性,F分数和ROC:性能评估的判别方法系列 ”)。 因此,我可以使用敏感性和特异性(TPR和TNR)来查看分类器对每个类别的表现,以最大程度地提高这些值为目标。 我的问题是,我正在寻找一种将这两个值组合成一个有意义的量度的量度。我研究了该文件中提供的措施,但是发现它并不简单。基于我的理解,我想知道为什么我们不能应用像F分数这样的东西,但是我不使用精度和召回率而是使用灵敏度和特异性?因此公式为 ,我的目标是最大化这个措施。我觉得它很有代表性。已经有类似的公式吗?这是否有意义,或者在数学上是否合理?my Performance Measure=2∗sensitivity∗specificitysensitivity+specificitymy Performance Measure=2∗sensitivity∗specificitysensitivity+specificity \text{my Performance Measure} = \frac{2 * \text{sensitivity} * \text{specificity}}{\text{sensitivity} + \text{specificity}}

2
有序逻辑回归中的AUC
我使用2种逻辑回归-一种是简单类型,用于二进制分类,另一种是序数逻辑回归。为了计算前者的准确性,我使用了交叉验证,其中我计算了每一折的AUC,然后计算了平均AUC。如何进行顺序逻辑回归?我听说过针对多类预测器的广义ROC,但是我不确定如何计算它。 谢谢!

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.