Questions tagged «statistical-significance»

统计显着性是指如果在抽取此样本的总体中真实效果为0(或某个假设值)的概率可能会发生比样本中的极端高或更高的测试统计。

3
比较两个分类器的(均值)ROC AUC,敏感性和特异性的统计显着性(p值)
我有一个包含100个案例和两个分类器的测试集。 我为这两个分类器生成了预测并计算了ROC AUC,敏感性和特异性。 问题1:如何计算p值,以检查一个总分(ROC AUC,敏感性,特异性)是否明显优于另一个? 现在,对于100个案例的相同测试集,我为每种案例分配了不同且独立的功能。这是因为我的功能是固定的,但主观的,并且由多(5)个主题提供。 因此,我针对我的测试集的5个“版本”再次评估了两个分类器,并获得了5个ROC AUC,5个敏感性和5个特异性。然后,我计算了两个分类器的5个主题的每个性能指标的平均值(平均ROC AUC,平均灵敏度和平均特异性)。 问题2:如何计算p值,以检查一个均值(平均ROC AUC,平均敏感性,平均特异性)是否明显好于另一个? 最好提供一些示例python(最好)或MatLab代码的答案。

3
为什么高阳性峰度对于假设检验有问题?
我听说过(抱歉,我无法提供到文本的链接,有人告诉我)对于正确的假设检验和置信区间,残差的高正峰度可能会成问题(因此存在统计推断问题)。这是真的吗?如果是这样,为什么?残差的高正峰度是否不表示大部分残差都接近零均值,因此存在的残差较小?(如果您有答案,请尝试在数学方面不多的情况下给出答案,因为我不太喜欢数学)。

3
当数据量巨大时,回归的统计显着性发生了什么?
我正在阅读有关大规模回归(link)的问题,whuber指出了一个有趣的观点,如下所示: “几乎所有运行的统计测试都将非常强大,以至于几乎可以确定“显着”的影响。您必须更加关注统计的重要性,例如影响的大小,而不是重要性。” ---胡布 我想知道这是可以证明的东西还是在实践中只是一些常见现象? 任何指向证明/讨论/模拟的指针都将非常有用。

7
将结果称为“接近”或“某种”有意义是错误的吗?
关于类似问题的普遍共识是:将结果称为“高度重要”是错误的吗?“高度显着”是一种有效的(尽管不是特定的)方式,用于描述p值远低于预设的显着性阈值的关联强度。但是,如何描述稍微高于阈值的p 值呢?我已经看到一些论文使用诸如“有些重要”,“几乎重要”,“接近重要性”之类的术语。我发现这些术语有些不切实际,在某些情况下,这是一种界限分明的卑鄙的方式,可以从有意义的结果中排除有意义的结果。这些术语可以用来描述“仅仅错过”您的p值临界值的结果吗?

1
在相同数据上,ANOVA检验的值与多个检验的值相比可以小多少?
简介:注意到今天这个问题引起了人们的注意: “ 当成对t检验都不存在时,方差分析会很重要吗? ”,我认为我可能能够以一种有趣的方式对其进行重新构架,以得到自己的答案。 。 当将统计显着性理解为简单的二分法,并仅根据ppp或\ alpha的较高值来判断时,可能会出现各种不一致的结果(以面值计)αα\alpha。@Glen_b 对上述问题的回答提供了以下情况的有用示例: ANOVA FFF检验为具有四个水平的一个自变量(IV)产生pF&lt;.05pF&lt;.05p_F<.05,但是 pt&gt;.08pt&gt;.08p_t>.08对于所有两个样本ttt检验,p_t&gt; .08,用于比较与IV的每对四个水平对应的观测值之间相同因变量(DV)的差异。 尽管通过这个问题进行了事后成对比较的Bonferroni校正,但发生了类似的情况:Anova重复测量很重要,但是使用Bonferroni校正的所有多重比较都不是吗?前面提到的情况在多元回归中的检验也略有不同: 为什么有可能获得显着的F统计量(p &lt;.001)但无显着的回归t检验?:pF&lt;.001,pβt&gt;.09pF&lt;.001,pβt&gt;.09p_F<.001,p_{\beta t}>.09 回归如何显着但所有预测变量都不显着? 在@whuber的答案中,pF=.0003,pβt&gt;.09pF=.0003,pβt&gt;.09p_F=.0003,p_{\beta t}>.09 我打赌,在这样的情况下,一些(但不是全部)成对比较(或回归系数显着性检验)值必须相当接近如果相应综合测试可以实现。我看到@Glen_b的第一个示例就是这种情况,其中,,最大的成对差给出最小的。一般情况下必须这样吗?更具体地说:α p &lt; α pppαα\alphap&lt;αp&lt;αp <\alphap ˚F = 0.046 p 吨 = 0.054F(3,20)=3.19F(3,20)=3.19F_{(3,20)}=3.19pF=.046pF=.046p_F=.046pt=.054pt=.054p_t=.054 问题:如果ANOVA检验对连续DV的一个多静脉IV的影响产生,那么在比较每对IV水平的所有两个样本检验中,最低的值有多高?最小成对意义是否可以高达?p F = .05 p t p t = .50FFFpF=.05pF=.05p_F=.05ppptttpt=.50pt=.50p_t=.50 我欢迎仅解决此特定问题的答案。但是,为了进一步激发这个问题,我将详细阐述并提出一些潜在的反问。欢迎您也解决这些问题,甚至在您愿意时也可以忽略特定的问题,尤其是在特定问题得到明确答案的情况下。 重要性:考虑一下,如果用连续的无效假设证据的强度来判断统计显着性,那么和之间的差异的重要性降低了多少(我认为是罗恩·费舍尔的方法?),而不是用高于或低于阈值的二分法来表示在选择是否拒绝零批发时可接受的错误概率。“ hacking ”是一个已知的问题,部分原因是由于对的解释而引入了不必要的漏洞,因此臭名昭著p t = .06pF=.04pF=.04p_F=.04pt=.06pt=.06p_t=.06p p …

2
使用统计显着性检验验证聚类分析结果
我正在调查使用统计显着性检验(SST)来验证聚类分析的结果。我发现了有关该主题的几篇论文,例如 “ 对于高维,低样本量数据聚类的统计显着性科幻通过” 刘,玉峰等人。(2008年) Bock(1985)的 “ 关于聚类分析中的一些显着性检验 ” 但是我有兴趣找到一些争论说SST 不适合验证聚类分析结果的文献。我发现声称它的唯一来源是软件供应商的网页 澄清: 我对测试是否因聚类分析而发现了重要的聚类结构感兴趣,因此,我想了解支持或驳斥“关于事后测试探索性数据结果的可能性”的论文。用来寻找聚类的分析”。 我刚刚发现了Milligan和Hirtle于2003年发表的一篇论文《聚类和分类方法》,该论文说,例如,使用ANOVA将是无效的分析,因为数据没有对组进行随机分配。

3
如何比较自举回归斜率?
让我们假设我有两个数据集,分别具有n个对独立变量x和因变量y的数据对的观察。让我们进一步假设,我想通过将观察值(替换后)自举N次并计算回归y = a + bx来生成每个数据集的回归斜率分布。每一次。我如何比较两个分布,以说斜率明显不同?用于测试分布中位数之间差异的U检验将严重依赖于N,即,我重复自举的次数越多,差异将越显着。我如何计算分布之间的重叠来确定显着差异?

1
Spearman相关系数差异的显着性检验
(非常感谢您的快速回复!我在提出问题方面做得很差,所以让我重试。) 我不知道如何找出两个Spearman相关系数之间的差异是否在统计上显着。我想知道如何找到它。 我想发现的原因是在以下论文中:Gabrilovich和Markovitch 撰写的基于Wikipedia的自然语言处理语义解释(《人工智能研究杂志》 34(2009)443-498)。 在表2(p。457)中,作者表明他们的方法(ESA-Wikipedia)比其他方法具有更高的统计学上显着的Spearman相关性,并且我想这样做也是为了证明我的方法比以前的方法更好一些问题的方法。 我不知道他们如何计算统计显着性,我想知道。该论文的作者确实指出,Spearman的等级相关被视为Pearson的相关。我不确定这是否是正确的方法。我有两个Spearman的相关性,我想知道它们之间的差异是否在统计上显着。 我知道网站(例如http://faculty.vassar.edu/lowry/rdiff.html)提供了在线计算器,用于获取两个Pearson相关性之间的差异。对于两个Spearman相关系数之间的差异,我找不到类似的在线计算器。 Peter Flom提供的链接中的解决方案 注意:这些过程仅支持Spearman的相关性低于0.6。 令 =观察到的集合相关性的Fisher变换, z_B =观察到的集合B的相关性的Fisher变换。zAzAz_AAAAzBzBz_BBBB 对于,让,其中是费希尔转换集的所述的一左通过删除 ,重新排序并重新计算相关性获得的相关性。(每个 基于对;每个删除都是临时的,仅对于i而言,不是永久的。)对集合重复。i=1,…,ni=1,…,ni = 1,\dots,nyAi=nzA−(n−1)zA′iyAi=nzA−(n−1)zA′iy_{A_i} = nz_A- (n - 1)z_{A'i}zA′izA′iz_{A'i}AAA(xi,yi)(xi,yi)(x_i,y_i)zA′izA′iz_{A'i}n−1n−1n-1BBB y¯A=∑yAi/ny¯A=∑yAi/n\bar y_A = \sum y_{A_i}/n是已知的Fisher变换。重复集。BBB vy¯A=∑(yAi−y¯A)2/(n(n−1))vy¯A=∑(yAi−y¯A)2/(n(n−1))v_{\bar y_A} = \sum (y_{A_i}-\bar y_A)^2 /(n(n-1))是的方差。重复集。y¯Ay¯A\bar y_ABBB 使用异方差(Welch-Satterthwaite)检验比较两个粗略估计:ttt nAnBABt=y¯A−y¯Bvy¯A+vy¯B−−−−−−−−√,df=(vy¯A+vy¯B)2v2y¯AnA−1+v2y¯BnB−1t=y¯A−y¯Bvy¯A+vy¯B,df=(vy¯A+vy¯B)2vy¯A2nA−1+vy¯B2nB−1 t = \frac{\bar y_A - \bar y_B}{\sqrt{v_{\bar y_A} + v_{\bar …

1
套索的LARS与坐标下降
使用LARS [1]与使用坐标下降来拟合L1正则化线性回归有什么优缺点? 我主要对性能方面感兴趣(我的问题往往有N成千上万且p小于20。)但是,任何其他见解也将受到赞赏。 编辑:自从我发布问题以来,chl亲切地指出了Friedman等人的论文[2],其中坐标下降比其他方法快得多。如果是这样,作为执业医生,我是否应该忘掉LARS来支持协调下降? [1]埃弗隆·布拉德利;海蒂·特雷弗;约翰·斯通,伊恩和蒂布希拉尼·罗伯特(2004)。“最小角度回归”。统计年鉴32(2):第407-499页。 [2] Jerome H. Friedman,Trevor Hastie,Rob Tibshirani,“通过坐标下降的广义线性模型的正则化路径”,《统计软件》,第1卷。33,第1期,2010年2月。

1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid &lt;- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric &lt;- "RMSE" trainControl &lt;- trainControl(method="cv", number=10) set.seed(99) gbm.caret &lt;- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

3
来自多个排名列表的总体排名
我浏览了很多在线文献,包括没有运气的这个论坛,希望有人可以帮助解决我目前面临的统计问题: 我有5个排名数据列表,每个列表包含从位置1(最佳)到位置10(最差)排名的10个项目。出于上下文考虑,每个列表中的10个项目都是相同的,但是由于用于确定其排名的技术不同,因此排名顺序不同。 示例数据: List 1 List 2 List 3 ... etc Item 1 Ranked 1 Ranked 2 Ranked 1 Item 2 Ranked 3 Ranked 1 Ranked 2 Item 3 Ranked 2 Ranked 3 Ranked 3 ... etc 我正在寻找一种方法来解释和分析上述数据,以便最终得出基于每个测试及其位置的每个项目的总体排名,例如 Result Rank 1 = Item 1 Rank 2 = Item 3 Rank …

2
在交互模型中找到最佳功能
我有蛋白质列表及其特征值。样本表如下所示: ...............Feature1...Feature2...Feature3...Feature4 Protein1 Protein2 Protein3 Protein4 行是蛋白质,列是特征。 我也列出了相互作用的蛋白质。例如 Protein3, Protein4 Protein1, Protein2 Protein4, Protein1 问题:对于初步分析,我想知道哪些功能对蛋白质相互作用的贡献最大。 我的理解是,决策树通常可以用于基于熵获得最重要的特征,但是我不确定如何将其扩展到蛋白质对(即相互作用)。是否有用于此目的的方法?


2
为什么在达到最佳样本量之前停止A / B测试是错误的?
我负责介绍我公司的A / B测试结果(在网站上运行)。我们进行了一个月的测试,然后定期检查p值,直到达到显着性为止(或者,如果长时间运行后未达到显着性,则放弃),我现在发现这是一种错误的做法。 我现在想停止这种做法,但是要这样做,我想了解为什么这是错误的。我知道效果大小,样本大小(N),α显着性标准(α)和统计功效,或选择或隐含的β(β)在数学上都是相关的。但是,在达到所需样本量之前停止测试会发生什么变化呢? 我在这里阅读了几篇文章(即this,this和this),他们告诉我,我的估计会有所偏差,并且我的Type 1错误的发生率急剧增加。但是那是怎么发生的呢?我正在寻找数学解释,这种解释可以清楚地显示出样本量对结果的影响。我想这与我上面提到的因素之间的关系有关,但是我无法找出确切的公式并自行解决。 例如,过早停止测试会增加类型1的错误率。好的。但为什么?如何增加类型1的错误率?我想念这里的直觉。 请帮忙。

3
统计:Alpha和Beta之间的关系
我的问题与alpha和beta及其在统计中的定义之间的关系有关。 alpha = I型错误率=考虑到NULL假设正确的显着性水平 Beta = II型错误率 如果alpha降低(特异性随着alpha = 1特异性而增加),则beta增加(灵敏度/功效随着beta = 1-灵敏度/功效而降低) alpha的变化如何影响beta? 是否存在线性关系?α/β之比是否始终相同,换句话说,特异性/敏感性之比始终相同?如果是,则意味着通过使用Bonferroni校正,我们只是转移到较低的敏感性和较高的特异性,而没有改变敏感性/特异性比。这样说正确吗? 更新(针对案例的问题): 对于给定的实验设计,我们对数据运行5个线性模型。我们的True阳性率(灵敏度/功效)为0.8,True阴性率(特异性)为0.7。(让我们想象一下,我们知道什么应该是积极的,什么不应该。)。如果现在使用Bonferroni将显着性水平校正为0.05 / 5 = 0.01。我们是否可以通过数值估算得出的真正率(灵敏度/功率)和真负率(特异性)? 非常感谢你的帮助。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.