Questions tagged «model-evaluation»

在评估模型时,无论是样本内还是样本外。

7
为什么准确性不是评估分类模型的最佳方法?
这是一个一般性问题,在这里多次被间接问到,但缺少一个权威性的答案。对此有详细的答案将是很棒的参考。 准确度(正确分类在所有分类中所占的比例)是非常简单且非常“直观”的度量,但是对于不平衡的数据而言可能不是一个很好的度量。为什么我们的直觉会误导我们,并且此措施还有其他问题?

7
具有大量功能(> 10K)的最佳PCA算法?
我之前在StackOverflow上问过这个问题,但由于它在SO上没有任何答案,因此似乎在这里更合适。这是统计和编程之间的交集。 我需要编写一些代码来进行PCA(主成分分析)。我浏览了众所周知的算法并实现了这一算法,据我所知,它等效于NIPALS算法。它可以很好地找到前2-3个主成分,但是收敛似乎很慢(大约数百到数千次迭代)。以下是我需要的详细信息: 当处理大量特征(10,000到20,000数量级)和数百个样本量的样本时,该算法必须高效。 它必须在没有像样的线性代数/矩阵库的情况下可以合理地实现,因为目标语言是D,但尚不存在,即使有,我也不想将其作为对相关项目的依赖项添加。 附带说明一下,在同一个数据集上,R看起来非常快地找到了所有主成分,但是它使用了奇异值分解,这不是我想自己编写的东西。

5
随机森林算法的优化实现
我注意到,有一些随机森林的实现,例如ALGLIB,Waffles和一些R包,例如randomForest。谁能告诉我这些库是否经过高度优化?它们是否基本上等同于《统计学习的要素》中详细介绍的随机森林,还是添加了很多额外的技巧? 我希望这个问题足够具体。为了说明我正在寻找的答案类型,如果有人问我线性代数软件包BLAS是否高度优化,我想说它是非常高度优化的,除了非常特殊的应用之外,几乎不值得尝试进行改进。

3
如何选择聚类方法?如何验证集群解决方案(以保证方法的选择)?
聚类分析的最大问题之一是,当基于使用的不同聚类方法(包括分层聚类中的不同链接方法)时,我们可能不得不得出不同的结论。 我想知道您对此的看法- 您将选择哪种方法以及如何选择。有人可能会说“最好的集群方法是为您提供正确的答案”;但我可能会回答,聚类分析应该是一种无监督的技术-那么我怎么知道哪种方法或链接是正确的答案? 总的来说:单独的集群是否足够强大才能依靠?还是我们需要第二种方法并获得基于这两种方法的共享结果? 我的问题不仅涉及验证/评估聚类性能的可能方法,而且涉及范围更广- 我们在什么基础上选择/优先于一种聚类方法/算法。另外,在选择一种对数据进行聚类的方法时,是否应该注意一些常见的警告? 我知道这是一个非常笼统的问题,很难回答。我只想知道您是否对我有任何意见或建议或建议,以了解更多信息。

1
交叉验证滥用(报告性能以获得最佳超参数值)
最近,我遇到了一篇论文,提出在特定数据集上使用k-NN分类器。作者使用所有可用的数据样本对不同的k值执行k倍交叉验证,并报告最佳超参数配置的交叉验证结果。 据我所知,这个结果是有偏差的,他们应该保留一个单独的测试集,以获取未用于执行超参数优化的样本的准确性估计。 我对吗?您能否提供一些参考(最好是研究论文)来描述交叉验证的这种滥用?

3
评估Hosmer-Lemeshow拟合优度的逻辑回归和解释
众所周知,有两种评估逻辑回归模型的方法,它们正在测试非常不同的事物 预测能力: 获取一个统计数据,该统计数据可衡量您可以基于自变量预测因变量的程度。众所周知的伪R ^ 2是McFadden(1974)和Cox and Snell(1989)。 拟合优度统计 该测试告诉您是否可以通过使模型更复杂来做得更好,实际上是在测试是否存在任何非线性或相互作用。 我在模型上实施了两个测试, 已经添加了二次和交互: >summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = binomial()) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.955431 8.838584 0.108 …

3
高度不平衡数据的分类/评估指标
我处理欺诈检测(类似信用评分)问题。因此,欺诈性观察与非欺诈性观察之间存在高度不平衡的关系。 http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html很好地概述了不同的分类指标。Precision and Recall或kappa两者似乎都是不错的选择: 证明此类分类器结果的一种方法是将它们与基准分类器进行比较,并表明它们确实比随机机会预测好。 据我了解,kappa由于考虑了随机机会,因此这可能是稍微更好的选择。从科恩用简单的英语写的kappa中,我了解到这kappa涉及信息获取的概念: [...] 80%的观测精度令人印象深刻,预期精度为75%,而预期精度为50%[...] 因此,我的问题是: 假设kappa是更适合此问题的分类指标是正确的吗? 简单地使用可以kappa防止不平衡对分类算法的负面影响吗?是否仍需要重新(向下/向上)采样或基于成本的学习(请参阅http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf)?



1
ROC曲线相互交叉时两个模型的比较
用于比较两个或多个分类模型的一种常用方法是使用ROC曲线(AUC)下的面积作为间接评估其性能的一种方法。在这种情况下,通常将具有较大AUC的模型解释为比具有较小AUC的模型具有更好的性能。但是,根据Vihinen,2012年(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3303716/)所述,当两条曲线相互交叉时,这种比较不再有效。为什么会这样呢? 例如,根据ROC曲线和下面的AUC,可以确定模型A,模型B和模型C的方法是什么?

2
phi,Matthews和Pearson相关系数之间的关系
phi和Matthews相关系数是同一概念吗?它们如何与两个二元变量的皮尔逊相关系数相关或等效?我假设二进制值为0和1。 两个伯努利随机变量和y之间的皮尔逊相关性是:xxxyyy ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]−−−−−−−−−−√=E[xy]−E[x]E[y]Var[x]Var[y]−−−−−−−−−−√=n11n−n1∙n∙1n0∙n1∙n∙0n∙1−−−−−−−−−−√ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]=E[xy]−E[x]E[y]Var[x]Var[y]=n11n−n1∙n∙1n0∙n1∙n∙0n∙1 \rho = \frac{\mathbb{E} [(x - \mathbb{E}[x])(y - \mathbb{E}[y])]} {\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{\mathbb{E} [xy] - \mathbb{E}[x] \, \mathbb{E}[y]}{\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{n_{1 1} n - n_{1\bullet} n_{\bullet 1}}{\sqrt{n_{0\bullet}n_{1\bullet} n_{\bullet 0}n_{\bullet 1}}} 哪里 E[x]=n1∙nVar[x]=n0∙n1∙n2E[y]=n∙1nVar[y]=n∙0n∙1n2E[xy]=n11nE[x]=n1∙nVar[x]=n0∙n1∙n2E[y]=n∙1nVar[y]=n∙0n∙1n2E[xy]=n11n \mathbb{E}[x] = \frac{n_{1\bullet}}{n} \quad \text{Var}[x] = \frac{n_{0\bullet}n_{1\bullet}}{n^2} \quad \mathbb{E}[y] = \frac{n_{\bullet 1}}{n} \quad \text{Var}[y] …


1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …


5
为什么f beta分数可以这样定义beta?
这是F beta得分: Fβ= (1 + β2)⋅ p - [R È Ç 我小号我ö Ñ ⋅ ř Ë Ç 一升升(β2⋅ p - [R È Ç 我小号我Ò Ñ)+ [R Ë Ç 一升升Fβ=(1个+β2)⋅p[RËC一世s一世Øñ⋅[RËC一个升升(β2⋅p[RËC一世s一世Øñ)+[RËC一个升升F_\beta = (1 + \beta^2) \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{(\beta^2 \cdot \mathrm{precision}) + \mathrm{recall}} 维基百科文章指出。FβFβF_\beta "measures the effectiveness of retrieval with respect to …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.