Questions tagged «power»

是假设检验方法的一个属性:假设原假设为假,则拒绝原假设的可能性,即不犯II型错误的可能性。测试的功效取决于样本量,效应量和显着性(α)测试水平。

10
t检验有效需要最小样本量吗?
我目前正在撰写一份半实验研究论文。由于所选区域内的人口较少,我的样本量只有15个,只有15个符合我的标准。15是用于t检验和F检验的最小样本量吗?如果是这样,我在哪里可以获得文章或书籍来支持这么小的样本量? 该论文上周一已被辩护,一个小组要求提供支持性参考,因为我的样本量太小。他说应该至少有40位受访者。

4
如何添加第二IV才能使第一IV重要?
我可能有一个简单的问题,但是现在让我感到困惑,所以希望您能帮助我。 我有一个最小二乘回归模型,其中有一个自变量和一个因变量。关系并不重要。现在,我添加第二个自变量。现在,第一个自变量和因变量之间的关系变得很重要。 这是如何运作的?这可能表明我的理解存在一些问题,但是对我而言,但我看不到添加第二个独立变量如何使第一个有意义。

4
卡明(2008)声称,复制过程中获得的p值的分布仅取决于原始p值。怎么可能是真的?
我一直在阅读杰夫·卡明(Geoff Cumming)在2008年发表的论文《复制和区间:值只是模糊地预测未来,但置信区间的确好得多》pppppp (《 Google学术搜索》中的〜200篇引文),并且被其核心观点之一所迷惑。这是卡明(Cumming)反对并主张置信区间的一系列论文之一。但是,我的问题与这场辩论无关,仅涉及关于一项具体主张。pppppp 让我引用摘要: 本文显示,如果初始实验的结果是两尾,则复制中 的单尾值有机会落在区间,的机会,,充分一个的机会。值得注意的是,该间隔(称为间隔)是如此之大,无论样本大小如何。p=.05p=.05p= .0580%80%80\%ppp(.00008,.44)(.00008,.44)(.00008, .44)10%10%10\%p&lt;.00008p&lt;.00008p < .0000810%10%10\%p&gt;.44p&gt;.44p > .44ppp 卡明(Cumming)声称,此“区间”以及实际上在复制原始实验(具有相同的固定样本大小)时将获得的的整个分布仅取决于原始值和不依赖于真实效果尺寸,功率,样本大小,或其他任何东西:ppppppppppobtpobtp_\mathrm{obt} 可以推导的概率分布,而无需知道或假设(或幂)的值。[...]我们不假设任何有关先验知识,而仅使用信息 [观察到的组间差异]给出了作为给定的计算基础和间隔的分布的 。pppδδ\deltaδδ\deltaMdiffMdiffM_\mathrm{diff}δδ\deltapobtpobtp_\mathrm{obt}pppppp \quad\quad\quad 我对此感到困惑,因为在我看来,的分布很大程度上取决于幂,而原始本身并没有提供任何有关幂的信息。实际效果大小可能是,然后分布是均匀的;或真实效果的大小可能很大,那么我们应该期望大多数很小。当然,可以先假设一些可能的效果大小并对其进行积分,但是卡明似乎声称这不是他正在做的事情。ppppobtpobtp_\mathrm{obt}δ=0δ=0\delta=0ppp 问题:这到底是怎么回事? 请注意,此主题与以下问题有关:重复实验的哪个部分在第一个实验的95%置信区间内将具有影响大小?@whuber提供了一个很好的答案。卡明(Canmming)对此主题发表了一篇论文,内容为:卡明(Cumming)和Maillardet,2006年,置信区间和复制:下一个均值将落在哪里?-但是这一点很明确,没有问题。 我还注意到,卡明的主张在2015年《自然方法》论文中被重复了好几次。善变的值会产生PPP某些人可能遇到的不可再现的结果(在Google学术搜索中已被引用约100次): 重复实验的值将有很大变化。实际上,很少重复进行实验。我们不知道下一个可能有多大差异。但它可能会大不相同。例如,不管实验的统计能力如何,如果单次重复实验的值为,则重复实验返回值在到之间的可能性为(变化为(原文如此,会更大)。PPPPPPPPP0.050.050.0580%80%80\%PPP0000.440.440.4420%20%20\%PPP (请注意,顺便说一下,怎么样,不管卡明的说法是否正确,自然的方法报导援引它不准确:根据卡明,它只有以上的概率。是的,纸张也说:“20%CHAN g e“。Pfff。)10%10%10\%0.440.440.44

5
为什么增加样本大小会降低(抽样)方差?
大图: 我试图了解增加样本数量如何增加实验的功效。我的讲师的幻灯片用2个正态分布的图片对此进行了解释,一个是零假设,一个是替代假设,它们之间的决策阈值c。他们认为,增加样本量将降低方差,从而导致较高的峰度,从而减少曲线下的共享区域,从而降低II型错误的可能性。 小图: 我不知道更大的样本量如何降低方差。 我假设您只是计算样本方差并将其用作正态分布中的参数。 我试过了: 谷歌搜索,但大多数被接受的答案有0赞或仅仅是示例 思考:根据大数定律,每个值最终应根据我们假设的正态分布稳定在其可能值附近。因此,方差应该收敛到我们假设的正态分布的方差。但是,该正态分布的方差是多少,它是一个最小值吗?也就是说,我们可以确定样本方差减小到那个值吗?

6
逻辑回归的样本量?
我想从调查数据中建立一个物流模型。这是对四个住宅殖民地的小规模调查,仅对154名受访者进行了采访。我的因变量是“令人满意的工作过渡”。我发现,在154位受访者中,有73位表示他们已经令人满意地过渡到工作,而其余的则没有。因此,因变量本质上是二进制的,因此我决定使用逻辑回归。我有七个独立变量(三个连续变量和四个名义变量)。一项指南建议,每个预测变量/自变量应有10个案例(Agresti,2007年)。根据该指南,我认为可以进行逻辑回归。 我对吗?如果没有,请让我知道如何确定自变量的数量?

3
用很小的样本量(例如n = 6)测试正态性是否有意义?
我的样本大小为6。在这种情况下,使用Kolmogorov-Smirnov检验来检验正态性是否有意义?我使用了SPSS。我的样本量很小,因为获取每个样本都需要时间。如果没有意义,那么最低数量的样本中有多少个是有意义的测试? 注意: 我做了一些与源代码有关的实验。该样本是在一个版本的软件(版本A)中编码所花费的时间。 实际上,我的样本量为6,这是在另一个版本的软件(版本B)中所编码的时间。 我想使用一样本t检验进行假设检验,以测试在代码版本A中花费的时间与在代码版本B中花费的时间是否不同(这是我的H1)。一次样本t检验的前提是要测试的数据必须正态分布。这就是为什么我需要测试正常性。

3
健全性检查:p值可以走多低?
我正在使用ranksum检验来比较两个样本的中位数(),发现它们与显着不同。我应该对这么小的值感到怀疑还是应该将其归因于与非常大的样本相关的高统计能力?有任何可疑的低值之类的东西吗?n = 120000ñ=120000n=120000p = 1.12E-207pppppp

4
动力不足的研究是否会增加假阳性的可能性?
在这里和这里之前都曾问过这个问题,但我认为答案不能直接解决这个问题。 动力不足的研究是否会增加假阳性的可能性?一些新闻文章对此作出了断言。对于例如: 统计能力低是个坏消息。动力不足的研究更有可能错过真正的效果,并且作为一个整体,它们更有可能包含更高比例的误报-也就是说,即使这些效果不是真实的,它们也具有统计学意义。 据我了解,测试的力量可以通过以下方式提高: 增加样本量 效果更大 提高重要性水平 假设我们不想更改显着性水平,我相信上面的引用是指更改样本大小。但是,我看不出减少样本应该如何增加误报的数量。简而言之,降低研究的功效会增加假阴性的可能性,这会回答以下问题: P(未能拒绝 H0| H0 是错误的)P(拒绝拒绝 H0|H0 是假的)P(\text{failure to reject }H_{0}|H_{0}\text{ is false}) 相反,误报回答了以下问题: P(拒绝 H0| H0 是真的)P(拒绝 H0|H0 是真的)P(\text{reject }H_{0}|H_{0}\text{ is true}) 两者都是不同的问题,因为条件不同。权力与否定否定(相反)相关,但与否定肯定无关。我想念什么吗?

1
先验能力分析本质上是没有用的吗?
上周,我参加了人格与社会心理学协会的一次会议,在该会议上,我看到Uri Simonsohn的演讲,前提是使用先验能力分析来确定样本量实际上是无用的,因为其结果对假设如此敏感。 当然,这种说法违背了我在方法论课上所学的知识,也违背了许多著名方法学家的建议(最著名的是Cohen,1992年),因此Uri提出了一些与他的主张有关的证据。我试图在下面重新创建一些证据。 为简单起见,让我们假设您有两组观察结果,并猜测效果大小(通过标准化均值差衡量)为。标准功率计算(使用下面的软件包完成)将告诉您,需要观察才能获得此设计的80%功率。128.5.5.5Rpwr128128128 require(pwr) size &lt;- .5 # Note that the output from this function tells you the required observations per group # rather than the total observations required pwr.t.test(d = size, sig.level = .05, power = .80, type = "two.sample", alternative = "two.sided") 但是,通常,我们对效果的预期大小的猜测(至少是在我所研究的社会科学领域)至少是-粗略的猜测。如果我们对效果的大小有些怀疑,那会发生什么?快速功效计算可以告诉您,如果效果的大小是而不是,则需要次观察- 是为的效果具有足够功效的数量的倍。同样,如果效果的大小为,则只需要进行观察,即需要有足够的能力才能检测到的效果的70%.5 200 1.56 .5 …

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
贝叶斯统计方法真的比行为统计的传统(频率)统计方法有所改进吗?
在参加会议时,贝叶斯统计的倡导者为评估实验结果做出了一些努力。它被吹捧为比真实的统计数据对真实的发现(更少的误报)更加敏感,适当和选择性更大。 我已经对该主题进行了一些探索,到目前为止,我对使用贝叶斯统计数据的好处深信不疑。但是,贝叶斯分析被用来驳斥达里尔·贝姆支持预知的研究,因此,我仍然对贝叶斯分析如何使我自己的研究受益会保持好奇。 因此,我对以下几点感到好奇: 贝叶斯分析与常客分析的力量 每种分析类型对1型错误的敏感性 分析复杂性(贝叶斯似乎更复杂)与收益之间的权衡。传统的统计分析非常简单,并具有完善的得出结论的指导原则。简单性可以看作是一种好处。那值得放弃吗? 感谢您的见解!

2
逻辑回归和t检验的功效如何比较?
逻辑回归和t检验的功效是否相等?如果是这样的话,它们应该是“等效数据密度”,这意味着在给定的固定alpha为0.05的情况下,相同数量的基础观测值会产生相同的功效。考虑两种情况: [参数t检验]:从二项式观察中抽取30个抽签,然后将所得值取平均值。对于A组(发生的二项式Pr为0.70),此操作完成30次;对于B组(发生的二项式Pr为0.75),完成30次。每组产生30个均值,代表从二项式分布中得出的1800次抽奖的摘要。进行58df t检验以比较均值。 [逻辑回归]:使用代表组成员身份的虚拟编码斜率执行逻辑回归,并进行1800次抽奖。 我的问题分为两部分: 给定的alpha为0.05,这些方法的功效是相同还是不同?为什么?我如何证明呢? 问题1的答案是否对进入t检验的样本量,t检验中每个组的样本量,基本的二项式概率或其他因素敏感?如果是这样,我怎么能(不用模拟)知道功率确实不同,什么样的变化会产生什么样的功率变化?或者,提供制定出的R代码,以使用仿真解决问题。

1
为什么Cox比例风险模型中的p值通常比逻辑回归中的p值高?
我一直在学习Cox比例风险模型。我有很多适合逻辑回归模型的经验,因此,为了建立直觉,我一直在比较coxphR“ survival”中使用的模型glm与配合使用的逻辑回归模型family="binomial"。 如果我运行代码: library(survival) s = Surv(time=lung$time, event=lung$status - 1) summary(coxph(s ~ age, data=lung)) summary(glm(status-1 ~ age, data=lung, family="binomial")) 我分别获得了0.0419和0.0254年龄的p值。同样,如果我使用性别作为预测因子,则可以选择是否带有年龄。 我感到困惑,是因为我认为,拟合模型时考虑到流逝的时间比将死亡视为二进制结果会带来更多的统计能力,而p值似乎与统计能力较小的人一致。这里发生了什么?

3
如何最好地以图形方式显示II型(beta)误差,功效和样本量?
我被要求写一篇关于统计学的入门书,我在努力用图形显示p值和幂之间的关系。我想出了这张图: 我的问题:有更好的显示方式吗? 这是我的R代码 x &lt;- seq(-4, 4, length=1000) hx &lt;- dnorm(x, mean=0, sd=1) plot(x, hx, type="n", xlim=c(-4, 8), ylim=c(0, 0.5), ylab = "", xlab = "", main= expression(paste("Type II (", beta, ") error")), axes=FALSE) axis(1, at = c(-qnorm(.025), 0, -4), labels = expression("p-value", 0, -infinity )) shift = qnorm(1-0.025, mean=0, …
16 r  teaching  power 


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.