Questions tagged «metric»

度量标准是一种输出一组2个元素之间的距离并满足某些严格条件的函数(某些“距离”函数不是度量标准)。



4
召回率和分类精度
尽管每次都是在信息检索的上下文中,但我还是阅读了一些有关回忆和精确度的定义。我想知道是否有人可以在分类环境中对此进行更多解释,并举例说明一些例子。比如说我有一个二进制分类器,它给我60%的精度和95%的召回率,这是一个很好的分类器吗? 也许可以进一步帮助我实现目标,那么根据您的最佳分类器是什么?(数据集不平衡。多数类的数量是少数类的示例的两倍) 我个人会说5,因为接收器操作员曲线下方的区域。 (如您在这里看到的,模型8的精度较低,召回率很高,但是AUC_ROC最低,这使它成为好模型还是坏模型?) 编辑: 我有一个包含更多信息的Excel文件:https : //www.dropbox.com/s/6hq7ew5qpztwbo8/comparissoninbalance.xlsx 在此文档中,可以找到接收方算子曲线下的区域以及精确召回曲线下的区域。连同情节。

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
与Kullback-Leibler散度相比,Wasserstein度量标准有什么优势?
Wasserstein度量和Kullback-Leibler散度之间的实际区别是什么?Wasserstein度量标准也称为推土机距离。 从维基百科: Wasserstein(或Vaserstein)度量是在给定度量空间M上的概率分布之间定义的距离函数。 和 Kullback-Leibler散度是一种概率分布与第二个预期概率分布之间的差异的度量。 我已经看到KL被用于机器学习实现中,但是最近我遇到了Wasserstein指标。关于何时使用一种或另一种有很好的指南吗? (我的信誉不足,无法使用Wasserstein或创建新标签Earth mover's distance。)

5
如何控制随机森林中错误分类的成本?
是否有可能控制R包randomForest中错误分类的代价? 在我自己的工作中,误报(例如,由于一个人可能患有疾病而导致的错误失误)比误报的代价要高得多。软件包rpart允许用户通过指定损失矩阵来不同程度地加权错误分类,从而控制错误分类成本。是否有类似的东西存在randomForest?例如,我是否应该使用该classwt选项来控制Gini标准?

2
比较聚类:兰德指数与信息变化
我想知道是否有人在信息变异和兰德指数之间的差异背后有任何见识或直觉可用于比较聚类。 我已经阅读了Marina Melia撰写的论文“ Comparing Clusterings-A InformationBased Distance ”(多变量分析杂志,2007年),但是除了注意到定义的差异之外,我不了解信息的变化是什么。捕获rand索引不捕获的值。




4
这些基于相关性的距离是否满足三角不等式?
对于分层聚类,我经常看到以下两个“量度”(它们并不是完全正确),用于测量两个随机变量和之间的距离: \ newcommand {\ Cor} {\ mathrm {Cor}} \ begin {align} d_1(X,Y)&= 1- | \ Cor(X,Y)|,\\ d_2(X,Y)&= 1-(\ Cor(X,Y))^ 2 \ end {align} 中的一个一个满足三角不等式?如果是这样,除了进行暴力计算之外,我还应该证明它吗?如果它们不是指标,那么简单的反例是什么?XXXYYY\newcommand{\Cor}{\mathrm{Cor}} d1(X,Y)d2(X,Y)=1−|Cor(X,Y)|,=1−(Cor(X,Y))2d1(X,Y)=1−|Cor(X,Y)|,d2(X,Y)=1−(Cor(X,Y))2\begin{align} d_1(X,Y) &= 1-|\Cor(X,Y)|, \\ d_2(X,Y) &= 1-(\Cor(X,Y))^2 \end{align}

2
协方差矩阵的度量标准:缺点和优势
什么是协方差矩阵的“最佳”指标,为什么?在我看来,Frobenius&c不合适,角度参数化也存在问题。直觉上可能希望在这两者之间做出折衷,但是我也想知道是否还有其他方面需要牢记,也许还有完善的标准。 通用指标具有各种弊端,因为它们对于协方差矩阵而言并不自然,例如,它们通常不会特别惩罚非PSD矩阵或表现不佳(考虑两个旋转的低秩协方差椭球体:我也想同样-中间旋转的距离要小于分量平均距离,这与以及Frobenius的情况不同,请在此处进行校正。同样,并不总是保证凸度。很高兴看到“好”指标解决了这些问题和其他问题。大号1个L1L_1 这是对一些问题的很好的讨论,一个来自网络优化的示例,另一个来自计算机视觉的示例。这是一个类似的问题,它得到了一些其他指标,但没有讨论。

1
scikit学习中的聚类惯性公式
我想使用pandas和scikit learning在python中编码kmeans集群。为了选择好的k,我想对Tibshirani和al 2001(pdf)中的Gap Statistic进行编码。 我想知道是否可以使用scikit的惯性_结果并调整间隙统计公式,而不必重新编码所有距离计算。 有谁知道scikit中使用的惯性公式/是否知道使用高级距离函数重新编码间隙统计信息的简便方法?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.