Questions tagged «power-analysis»

在某些情况下,通过计算功效(即假设原假设为假的拒绝原假设的概率)来查询统计检验的质量。在计划研究以确定达到标称功率水平所需的样本量时,通常使用功率分析(例如80%)的效果大小。在许多情况下,理论计算是棘手的,因此功率分析是通过仿真完成的。




1
似然比检验的“理想”统计特性是什么?
我正在阅读一篇文章,其方法完全基于似然比检验。作者说,针对单方面选择的LR测试是UMP。他继续声称 “ ...即使无法证明[LR测试]的功能最强大,LR测试通常也具有理想的统计特性。“ 我想知道这里的统计属性是什么意思。鉴于作者提到的是顺带一提,我认为它们是统计学家中的常识。 到目前为止,我设法找到的唯一理想的属性是(在某些规则性条件下)的渐近卡方分布,其中是LR比率。λλ− 2 日志λ−2log⁡λ-2 \log \lambdaλλ\lambda 我还要感谢对经典文本的引用,在该文本中可以阅读有关这些所需属性的信息。

2
回归F检验的功效是什么?
多线性回归中变量子集的经典F检验的形式为 其中是“减少”模型下的平方误差总和,嵌套在“大”模型,而是模型的自由度。两种模式。在“大”模型中的额外变量没有线性解释能力的零假设下,统计量以为和的F分布。SSE(R)BdfdfR-dfBdfBF= (SSE(R )− SSE(B ))/(dF[R- dF乙)上证所(B) / dF乙,F=(SSE(R)−SSE(B))/(dfR−dfB)SSE(B)/dfB, F = \frac{(\mbox{SSE}(R) - \mbox{SSE}(B))/(df_R - df_B)}{\mbox{SSE}(B)/df_B}, 上证所(R)SSE(R)\mbox{SSE}(R)乙BBdFdfdfdF[R- dF乙dfR−dfBdf_R - df_BdF乙dfBdf_B 但是,替代方案下的分布是什么?我假设它是一个非中心F(我希望不是双重非中心),但是我找不到关于非中心性参数确切含义的任何参考。我想这取决于真实的回归系数,并且可能取决于设计矩阵,但是除此之外,我不确定。Xββ\betaXXX

4
一项研究超负荷意味着什么?
一项研究超负荷意味着什么? 我的印象是,这意味着您的样本量太大,以至于您有能力检测微小的效应量。这些影响的大小可能很小,以至于它们比变量之间的因果关系(不一定是直接因果关系)更可能是由采样过程中的轻微偏差引起的。 这是正确的直觉吗?如果是这样,我不认为有什么大不了的,只要以这种方式解释结果,然后您手动检查并查看估计的效果大小是否足够大以至于“有意义”。 我想念什么吗?关于在这种情况下该怎么做,有更好的建议吗?

1
功率分析,用于生存分析
如果我假设基因签名可以识别出较低的复发风险,即20%的人群中的事件发生率降低0.5(危险比为0.5),并且我打算使用回顾性队列研究的样本是否需要针对两个假设的组中不相等的数字来调整样本量? 例如,使用Collett,D:《医学研究中的生存数据建模》,第二版-2003年第二版。可以使用以下方法找到所需的事件总数d, d=(Zα/2+Zβ/2)2p1p2(θR)2d=(Zα/2+Zβ/2)2p1p2(θR)2\begin{equation} d = \frac{(Z_{\alpha/2} + Z_{\beta/2})^2}{p_1 p_2 (\theta R)^2} \end{equation} 其中和Z _ {\ beta / 2}分别是标准正态分布的上\ alpha / 2和上\ beta / 2点。Zα/2Zα/2Z_{\alpha/2}Zβ/2Zβ/2Z_{\beta/2}α/2α/2\alpha/2β/2β/2\beta/2 对于特定的值, p1=0.20p1=0.20p_1 = 0.20 p2=1−p1p2=1−p1p_2 = 1 - p_1 θR=−0.693θR=−0.693\theta R = -0.693 α=0.05α=0.05\alpha = 0.05,所以Z0.025=1.96Z0.025=1.96Z_{0.025}= 1.96 β=0.10β=0.10\beta = 0.10,所以Z0.05=1.28Z0.05=1.28Z_{0.05} = 1.28, 并θR=logψR=log0.50=−0.693θR=log⁡ψR=log⁡0.50=−0.693\theta R = \log …

1
非中心性参数-它是什么,它起什么作用,建议值是多少?
我一直在努力提高自己的统计知识,尤其是在样本量确定和统计功效分析方面。但是似乎我读的越多,我需要阅读的越多。 无论如何,我找到了一个名为G * Power的工具,该工具似乎可以满足我的所有需求,但是我在理解非中心性参数时遇到了问题,它是什么,它是做什么的,建议值是什么? 维基百科等上的信息不完整,或者我在理解它方面做得不好。 如果有帮助,我将进行一系列的两个尾部z检验。 ps有人可以为此问题添加更好的标签吗?

1
蒙特卡洛分析所需的模拟数量
我的问题是有关蒙特卡洛分析方法所需的模拟数量。据我所知,对于任何允许的百分比误差(例如5),所需的仿真次数为 ËËEn = { 100 ⋅ žC⋅ 标准( X )Ë⋅ 平均值(x )}2,ñ={100⋅žC⋅性病(X)Ë⋅意思(X)}2, n = \left\{\frac{100 \cdot z_c \cdot \text{std}(x)}{E \cdot \text{mean}(x)} \right\}^2 , 其中是所得采样的标准偏差,是置信度系数(例如,对于95%,它是1.96)。因此,以这种方式可以检查模拟的结果平均值和标准偏差是否代表置信度为95%的实际平均值和标准偏差。标准(x )性病(X)\text{std}(x)žCžCz_cññn 就我而言,我运行了7500次仿真,并从7500个仿真中计算出每100个样本的移动平均值和标准偏差。我获得的所需模拟次数始终小于100,但均值和标准差与整个结果的均值和标准差的百分比误差并不总是小于5%。在大多数情况下,平均值的百分比误差小于5%,但std的误差高达30%。 在不知道实际均值和标准差的情况下确定所需模拟次数的最佳方法是什么(在我的情况下,模拟结果呈正态分布)? 在此先感谢您的帮助。 为了对无限次运行迭代时模拟结果的分布情况有所了解:我决定找到结果分布的拟合函数,而不是使用n次模拟后的结果均值和方差,但是这里n必须完全填充允许的%错误。我认为通过这种方式,我可以找到与97.5%相关的累积分布函数的更正确结果。因为当我比较400和7000仿真的结果时,两个采样的分布的拟合函数看起来彼此相似,只有第二个曲线更平滑。同样,因此在MATLAB / Simulink中的模型是非线性的,尽管生成的输入参数是正态分布的,但由于我使用了“广义极值分布”,因此模拟结果的直方图也不是正态的,在MATLAB中称为“ gev”。但是,对于这种方法,我还是不太确定,谢谢您提前发出任何命令

1
用比例和二项式分布确定样本大小
我正在尝试使用Sokal和Rohlf(3e)写的《生物统计学》一书来学习一些统计数据。这是第5章的练习,其中涵盖了概率,二项式分布和泊松分布。 我意识到有一个公式可以回答这个问题: 但是,该公式不在本文中。我想知道如何仅知道概率,所需的置信度和二项式分布来计算样本量。有没有涉及这一主题的资源?我已经尝试过Google,但是到目前为止,我所看到的都需要我无法访问的信息。n=4(p–√−q√)2n=4(p−q)2 n = \frac 4 {( \sqrt{p} - \sqrt{q} )^2}

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
当零假设为
我想对来自二项式数据的单个样本进行功效分析,H0:p=0H0:p=0H_0: p = 0,而H1:p=0.001H1:p=0.001H_1: p = 0.001,其中ppp是总体中成功的比例。如果0&lt;p&lt;10&lt;p&lt;10 < p <1,我可以使用任一的正态近似二项式,或χ2χ2\chi^2 -test,但与p=0p=0p =0,这些都失败。我很想知道是否可以进行这种分析。我非常感谢您的任何建议,评论或参考。非常感谢!

2
两次样本t检验的功效
我试图了解两个独立样本t检验(不假设方差相等,因此我使用Satterthwaite)的功效计算。 这是我发现可以帮助您理解该过程的图表: 因此,我假定给定以下两个总体,并给出样本量: mu1&lt;-5 mu2&lt;-6 sd1&lt;-3 sd2&lt;-2 n1&lt;-20 n2&lt;-20 我可以计算零下的临界值,该临界值与0.05的上尾概率有关: df&lt;-(((sd1^2/n1)+(sd2^2/n2)^2)^2) / ( ((sd1^2/n1)^2)/(n1-1) + ((sd2^2/n2)^2)/(n2-1) ) CV&lt;- qt(0.95,df) #equals 1.730018 然后计算替代假设(对于这种情况,我了解到的是“非中心t分布”)。我使用上图中的非中心分布和临界值在上图中计算了beta。这是R中的完整脚本: #under alternative mu1&lt;-5 mu2&lt;-6 sd1&lt;-3 sd2&lt;-2 n1&lt;-20 n2&lt;-20 #Under null Sp&lt;-sqrt(((n1-1)*sd1^2+(n2-1)*sd2^2)/(n1+n2-2)) df&lt;-(((sd1^2/n1)+(sd2^2/n2)^2)^2) / ( ((sd1^2/n1)^2)/(n1-1) + ((sd2^2/n2)^2)/(n2-1) ) CV&lt;- qt(0.95,df) #under alternative diff&lt;-mu1-mu2 t&lt;-(diff)/sqrt((sd1^2/n1)+ (sd2^2/n2)) ncp&lt;-(diff/sqrt((sd1^2/n1)+(sd2^2/n2))) #power 1-pt(t, …

2
随机效应模型中每个群集的最小样本量
随机效应模型中每个聚类的观察数量是否合理?我有1,500个样本,其中700个聚类被建模为可交换随机效应。我可以选择合并群集,以构建较少但较大的群集。我想知道如何选择每个聚类的最小样本量,以便在预测每个聚类的随机效应时获得有意义的结果?有一篇很好的论文可以解释这一点吗?

2
您可以在R中计算Kolmogorov-Smirnov检验的功效吗?
是否可以对R中的两面Kolmogorov Smirnov测试进行功率分析? 我正在使用ks.test()测试两个经验分布是否不同,并希望添加功效分析。 我无法在R中找到用于KS测试的内置功率分析。有什么建议吗? 编辑:这些是随机生成的分布,非常接近我的数据(具有真实的样本大小和指数分布的估计衰减率) set.seed(100) x &lt;- rexp(64, rate=0.34) y &lt;- rexp(54,rate=0.37) #K-S test: Do x and y come from same distribution? ks.test(x,y) 这些数据是两个不同组中身体大小的度量。我想证明两组的分布基本相同,但是一位合作者问我是否有能力根据样本量来说明这一点。我是从这里的指数分布中随机抽取的,但是它们接近真实数据。 到目前为止,我已经说过,基于双面KS测试,这些分布没有显着差异。我还绘制了两个分布。考虑到x和y的样本大小和衰减率,如何证明我有能力做出这样的陈述?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.