Questions tagged «power»

是假设检验方法的一个属性:假设原假设为假,则拒绝原假设的可能性,即不犯II型错误的可能性。测试的功效取决于样本量,效应量和显着性(α)测试水平。

2
样本数量不相等:何时退出
我正在同peer审查一篇学术期刊文章,作者写了以下内容作为不报告任何推论统计数据的理由(我确定了这两组的性质): 总共的2349(1.1%)的受访者25报道X。我们适当地避免提供将X组与Y组(其他2,324名参与者)进行统计学比较的分析,因为这些结果可能是偶然性所驱动,而这种结果很少见。 我的问题是,这项研究的作者是否有理由在比较群体方面有所作为?如果没有,我会向他们推荐什么?

1
如何确定重复测量方差分析所需的样本量?
我需要有关重复测量方差分析的一些帮助。 我们正在调查某些病房中某些干预措施对降低血流感染(BSI)率的影响。我们计划每月获取一次BSI费率信息,首先是在没有干预的情况下12个月,然后在有干预的情况下12个月。 我们正在考虑进行时间序列或重复测量方差分析,在我对第一个方法没有太多想法之前,我希望使用后一个方法(额外的问题:时间点太少了吧?),但是接下来另一个问题是,我们需要多少病房才能证明干预对BSI率确实有统计学上的显着影响? 我想我要进行两个ANOVA,一个用于“干预之前”,一个用于“干预期间”,并且我认为“ ANOVA”在“干预之前”不应进行显着的F比率检验。 我二维地考虑“样本量”一词,无论是病房数还是重复测量数。


1
生物标志物研究的功效计算/样本量
我们有一个潜在的生物标志物,可以预测患者是否患有癌症。生物标志物测试结果为二进制为阳性或阴性。我们希望对需要测试的患者数量有所了解,以确定该生物标记物是否是良好的预测指标。 通过在互联网上阅读,似乎要走的路是看灵敏度(对于病例数)和特异性(对于对照数)。建议您将这种情况视为单样本比例测试,但仍不清楚如何估算灵敏度以及准备除的范围。如果说我认为灵敏度高于0.8的任何生物标记物都为“良好”,您将如何设置这两个变量?我希望我的零假设是生物标记,并不比随机分配好,即灵敏度为0.5。任何人都可以举例说明执行此操作的最佳方法(尤其是在R中)。
13 r  power 


2
如何严格证明选择的假阳性/假阴性错误率和潜在成本比率?
语境 一组社会科学家和统计学家(Benjamin等人,2017年)最近建议,用作确定“统计意义”的阈值的典型假阳性率( = .05)需要调整为更保守的阈值( = .005)。一群竞争激烈的社会科学家和统计学家(Lakens等,2018)做出了回应,反对使用这个-或任何其他-任意选择的阈值。以下是Lakens等人的报价。(第16页)有助于举例说明我的问题的主题:ααα\alphaαα\alpha 理想情况下,通过使用决策理论将成本和收益与效用函数进行比较来确定Alpha级别。与从难以获得的样本中收集数据相比,这种成本效益分析(因此也就是alpha水平)在分析现有的大型数据集时有所不同。科学是多种多样的,这取决于科学家来证明他们决定使用的Alpha水平。...研究应遵循严格的科学原理,而不是启发法和任意的门槛。 题 我想知道如何才能像Lakens等人那样以“受严格科学原理指导”的方式证明所选alpha的合理性。建议,在大多数社会科学背景下(即在某些情况下,人们需要更具体的素质(例如利润)来优化)? 随着Lakens等人的传播,我开始看到在线计算器在流通,以帮助研究人员做出这一决定。研究人员在使用它们时,需要指定假阳性和假阴性错误的“成本比”。然而,由于这个计算器在这里建议,确定这样的成本比可能涉及大量的定量猜测工作: 尽管有些错误成本很容易用货币来量化(直接成本),而其他错误成本却很难将零头的金额(间接成本)量化。...尽管难以量化,但您仍应努力给他们加一个数字。 例如,尽管Lakens等。建议研究难以达到的样本,作为在证明α时可能要考虑的一个因素,似乎人们仍在猜测该样本难以达到的程度,从而如何相应地调整alpha的选择。再举一个例子,对我而言,要量化发表假阳性的成本似乎是困难的,要看别人随后会投入多少时间/金钱来进行基于错误推论的研究。 如果确定此成本比率在很大程度上是主观猜测的问题,那么我想知道这些决定是否能够(再次,除了优化诸如利润之类的)“合理化”。就是说,以某种方式存在于关于采样,权衡,影响等的假设之外?以这种方式,在我看来,确定假阳性/假阴性错误的成本比似乎类似于选择贝叶斯推断中的先验-这个决定可能是主观的,会影响结果,因此引起争议- -尽管我不确定这是否是合理的比较。 摘要 为了使我的询问具体: 在大多数社会科学背景下,假阳性率/假阴性率及其成本比率是否能被“严格”证明是正确的? 如果是这样,可以遵循哪些通用原则来证明这些分析选择是合理的(可能是其中一个或两个示例在起作用) 如果不是,我在选择成本比时的潜在主观性(类似于贝叶斯优先选择)是否合理? 参考文献 本杰明(DJ),伯杰(J. 重新定义统计意义。取自psyarxiv.com/mky9j Lakens,D.,Adolfi,FG,Albers,CJ,Anvari,F.,Apps,MA,... Zwaan,RA(2018年1月15日)。证明你的阿尔法。取自psyarxiv.com/9s3y6

1
为什么高斯线性模型中的F检验功能最强大?
对于高斯线性模型,其中μ,假定为位于某些向量空间W ^和ģ对标准正态分布ř Ñ,所述的统计˚F -test为ħ 0:{ μ ∈ ù }其中ü ⊂ w ^是一个向量空间,是的增加一到一个功能偏差统计: ˚F = φ ( 2 日志SUP μ ∈ w ^ÿ= μ + σGY=μ+σGY=\mu+\sigma Gμμ\muw ^WWGGG[RñRn\mathbb{R}^nFFFH0:{ μ ∈ û}H0:{μ∈U}H_0\colon\{\mu \in U\}ü⊂ w ^U⊂WU \subset W 我们怎么知道这个统计数据为H0提供了最有力的检验(也许在丢弃了异常情况之后)?因为这个定理断言,似然比测试是最有力的对点的假设这并不奈曼皮尔森定理干ħ0:{μ=μ0,σ=σ0}和ħ1:{F= ϕ ( 2 对数SUPμ ∈ w ^,σ> 0L (μ ,σ| ÿ)SUPμ ∈ û,σ> …

1
F检验的样本量公式?
我想知道是否有像Lehr公式这样的样本量公式适用于F检验?Lehr的t检验公式为,其中是效果大小(例如)。可以将其推广为,其中是一个常数,取决于类型I速率,所需功率以及是执行单面测试还是双面测试。 Δ Δ = (μ 1 - μ 2)/ σ Ñ = c ^ / Δ 2 çn=16/Δ2n=16/Δ2n = 16 / \Delta^2ΔΔ\Delta Δ=(μ1−μ2)/σΔ=(μ1−μ2)/σ\Delta = (\mu_1 - \mu_2) / \sigman=c/Δ2n=c/Δ2n = c / \Delta^2ccc 我正在寻找F检验的类似公式。在替代方案中,我的测试统计量分布为具有个自由度和非中心性参数的非中心F ,其中仅取决于总体参数,该参数未知但假定具有一定价值。参数由实验确定,是样本大小。理想情况下,我正在寻找形式为的(最好是众所周知的)公式, 其中仅取决于类型I速率和功率。Ñ λ λ ķ Ñ Ñ = Çk,nk,nk,nnλnλn \lambdaλλ\lambdakkknnn cn=cg(k,λ)n=cg(k,λ)n = \frac{c}{g(k,\lambda)}ccc 样本大小应满足 其中是具有 dof和非中心性参数的非中心F的CDF …

2
了解Gelman&Carlin“超越功率计算:…”(2014)
我正在阅读Gelman&Carlin “超越功率计算:评估S型(符号)和M型(幅值)错误”(2014年)。我试图理解主要思想,主要思路,但我感到困惑。有人可以帮我提炼精华吗? 这篇论文是这样的(如果我理解正确的话)。 心理学方面的统计研究经常受到小样本困扰。 在给定的研究中,以统计学上显着的结果为条件, (1)可能会严重高估真实的效应量; (2)除非有足够大的样本量,否则效应的迹象很有可能相反。 以上是使用对种群效应大小的先验猜测显示的,通常认为效应很小。 我的第一个问题是,为什么要以统计显著性为条件?是否反映了出版偏见?但这似乎并非如此。那为什么呢? 我的第二个问题是,如果我自己进行研究,是否应该对结果进行不同于以往的处理(我做常客统计,对贝叶斯不太熟悉)?例如,我将获取一个数据样本,估算一个模型,并记录一个点估算值,以获取感兴趣的效果以及围绕它的置信度。我现在应该怀疑我的结果吗?如果统计意义重大,还是应该不信任它?给定的任何先前更改如何? (1)统计研究的“生产者”和(2)应用统计论文的读者的主要收获是什么? 参考文献: 盖尔曼,安德鲁和约翰·卡林。“超出功率计算:评估类型S(符号)和类型M(幅度)错误。” 心理科学观点 9.6(2014):641-651。 PS:我认为对我来说,新的要点是包括先验信息,我不确定该如何对待(来自常客主义范式)。

1
似然比检验的“理想”统计特性是什么?
我正在阅读一篇文章,其方法完全基于似然比检验。作者说,针对单方面选择的LR测试是UMP。他继续声称 “ ...即使无法证明[LR测试]的功能最强大,LR测试通常也具有理想的统计特性。“ 我想知道这里的统计属性是什么意思。鉴于作者提到的是顺带一提,我认为它们是统计学家中的常识。 到目前为止,我设法找到的唯一理想的属性是(在某些规则性条件下)的渐近卡方分布,其中是LR比率。λλ− 2 日志λ−2log⁡λ-2 \log \lambdaλλ\lambda 我还要感谢对经典文本的引用,在该文本中可以阅读有关这些所需属性的信息。

4
如何最好地分析基于医院的RCT中的住院时间数据?
我很想知道是否存在关于分析来自RCT的住院时间(LOS)数据的最佳方法的共识。这通常是一个非常偏斜的分布,其中大多数患者在几天到一周内出院,但是其余患者的停留时间非常不可预测(有时甚至很长),形成分布的右尾。 分析选项包括: t检验(假设不可能出现正态性) 曼·惠特尼U检验 对数秩检验 组分配的Cox比例风险模型条件 这些方法中的任何一种具有明显更高的功效吗?

4
一项研究超负荷意味着什么?
一项研究超负荷意味着什么? 我的印象是,这意味着您的样本量太大,以至于您有能力检测微小的效应量。这些影响的大小可能很小,以至于它们比变量之间的因果关系(不一定是直接因果关系)更可能是由采样过程中的轻微偏差引起的。 这是正确的直觉吗?如果是这样,我不认为有什么大不了的,只要以这种方式解释结果,然后您手动检查并查看估计的效果大小是否足够大以至于“有意义”。 我想念什么吗?关于在这种情况下该怎么做,有更好的建议吗?

1
哪个表可用于交叉表分析:Boschloo或Barnard?
我正在分析来自30位患者的小型数据集的2x2表。我们正在回顾性地尝试寻找一些变量,这些变量可以提示选择哪种治疗方法。变量(obs正常/奇怪)和治疗决策(A / B)具有特殊意义,因此数据如下所示: Obs / Tr。十二月正常奇怪一个12012乙13518岁25530Obs / Tr。十二月一个乙正常121325奇怪0551218岁30\begin{array} {|r|r|r|r|} \hline \text{Obs/Tr. Dec.} &\text{A} &\text{B}\\ \hline \text{normal} &12 &13 &25\\ \hline \text{strange} &0 &5 &5\\ \hline &12 &18 &30\\ \hline \hline \end{array} 显然,一个单元格缺少条目,这不包括卡方检验,而Fisher的精确检验没有给出饱和的p值(但仍小于10%)。因此,我的第一个想法是找到一种功能更强大的测试,并且在博客和本文中有关Barnard和Boschloos测试的文章中进行了阅读 ,总的来说,有以下三种情况可以产生强大的测试: 固定列和行和 Fisher的精确检验→→\rightarrow 固定的列或(xclusive)行和 Barnard的精确检验→→\rightarrow 没有固定的 Boschloos的精确测试→→\rightarrow 上面的文章指出,处理A和处理B的总和以前几乎是未知的,因此我们可以排除Fisher的精确检验。但是其他选择呢?如果我们有健康的对照,我们可以控制安慰剂和verum组,我们可以控制这些数字,因此可以选择2:Barnard。就我而言,我不确定,因为一方面我们有一个类似的数学问题(观察水平的总和等于安慰剂/ verum的总和),这导致了Barnard,但设计有所不同,因为我们无法控制nr。采样前正常/奇怪的观察结果,导致3:Boschloo。 那么应该使用哪个测试,为什么呢?我当然要大功率。 (我想知道的另一个问题是,如果在chisq.testr的情况下使用不是更好prop.test(x, alternative = "greater")?在这里对理论方面进行了说明。)

1
非中心性参数-它是什么,它起什么作用,建议值是多少?
我一直在努力提高自己的统计知识,尤其是在样本量确定和统计功效分析方面。但是似乎我读的越多,我需要阅读的越多。 无论如何,我找到了一个名为G * Power的工具,该工具似乎可以满足我的所有需求,但是我在理解非中心性参数时遇到了问题,它是什么,它是做什么的,建议值是什么? 维基百科等上的信息不完整,或者我在理解它方面做得不好。 如果有帮助,我将进行一系列的两个尾部z检验。 ps有人可以为此问题添加更好的标签吗?

1
是否有效果大小的一般定义?
该effect-size标签没有维基。关于效果大小的维基百科页面没有提供精确的一般定义。而且我还没有看到效果大小的一般定义。然而读了一些讨论,比如当这一个我的印象是人们心目中的影响大小的一般概念下,在统计检验的情况下。我已经看到的标准化平均被称为影响大小用于正常模型Ñ(μ ,σ 2),以及标准平均差θ = (θ=μ/σθ=μ/σ\theta=\mu/\sigmaN(μ,σ2)N(μ,σ2){\cal N}(\mu,\sigma^2)为“两个高斯手段”的模式。但是一般的定义呢?上面两个示例共有的有趣特性是,据我所知, 功率仅取决于 θ的参数,并且是 |的递增函数。θ | 当我们考虑用于通常测试 ħ 0:{ μ = 0 }在所述第一壳体和 ħ 0:{ μ 1 = μ 2 }在第二种情况下。 θ=(μ1−μ2)/σθ=(μ1−μ2)/σ\theta=(\mu_1-\mu_2)/\sigmaθθ\theta|θ||θ||\theta|H0:{μ=0}H0:{μ=0}H_0:\{\mu=0\}H0:{μ1=μ2}H0:{μ1=μ2}H_0:\{\mu_1=\mu_2\} 这个属性是效应大小概念背后的基本思想吗?那将意味着效果大小被定义为单调一对一转换?还是有一个更精确的一般定义?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.