Questions tagged «power-analysis»

在某些情况下,通过计算功效(即假设原假设为假的拒绝原假设的概率)来查询统计检验的质量。在计划研究以确定达到标称功率水平所需的样本量时,通常使用功率分析(例如80%)的效果大小。在许多情况下,理论计算是棘手的,因此功率分析是通过仿真完成的。

7
最小回归的最小样本量的经验法则
在社会科学领域的一项研究计划中,有人问我以下问题: 在确定多元回归的最小样本量时,我总是走100 + m(其中m是预测变量的数量)。这样合适吗 我经常遇到很多类似的问题,通常有不同的经验法则。我也在各种教科书中读了很多这样的经验法则。有时我想知道规则在引用方面的普及是否基于该标准的设定低。但是,我也意识到良好启发式方法在简化决策过程中的价值。 问题: 在设计研究的应用研究人员的背景下,简单的经验法则对于最小样本量有什么用? 您是否会建议使用另一条经验法则来确定多元回归的最小样本量? 或者,您将建议采用哪些替代策略来确定多元回归的最小样本量?特别是,如果将值分配给非统计人员可以轻松应用任何策略的程度,那将是很好的。

2
Logistic回归功效分析的仿真-设计的实验
这个问题是对@Greg Snow给出的答案的回应,该答案是我提出的有关使用Logistic回归和SAS进行功率分析的问题Proc GLMPOWER。 如果我正在设计一个实验并将对结果进行析因逻辑回归分析,该如何使用模拟(和此处)进行功效分析? 这是一个简单的示例,其中有两个变量,第一个具有三个可能的值{0.03,0.06,0.09},第二个是虚拟指示器{0,1}。对于每种组合,我们估计每种组合的响应率(响应者数量/投放市场的人数)。此外,我们希望因子的第一个组合的数量是其他因子的3倍(可以认为是相等的),因为该第一个组合是我们尝试过的真实版本。这种设置类似于链接问题中提到的SAS课程中给出的设置。 用于分析结果的模型将是具有主要影响和相互作用(响应为0或1)的逻辑回归。 mod <- glm(response ~ Var1 + Var2 + I(Var1*Var2)) 如何模拟用于此模型的数据集进行功率分析? 当我通过SAS运行时Proc GLMPOWER(使用STDDEV =0.05486016 对应于sqrt(p(1-p))其中p是显示的响应率的加权平均值): data exemplar; input Var1 $ Var2 $ response weight; datalines; 3 0 0.0025 3 3 1 0.00395 1 6 0 0.003 1 6 1 0.0042 1 9 0 0.0035 1 …


1
先验能力分析本质上是没有用的吗?
上周,我参加了人格与社会心理学协会的一次会议,在该会议上,我看到Uri Simonsohn的演讲,前提是使用先验能力分析来确定样本量实际上是无用的,因为其结果对假设如此敏感。 当然,这种说法违背了我在方法论课上所学的知识,也违背了许多著名方法学家的建议(最著名的是Cohen,1992年),因此Uri提出了一些与他的主张有关的证据。我试图在下面重新创建一些证据。 为简单起见,让我们假设您有两组观察结果,并猜测效果大小(通过标准化均值差衡量)为。标准功率计算(使用下面的软件包完成)将告诉您,需要观察才能获得此设计的80%功率。128.5.5.5Rpwr128128128 require(pwr) size <- .5 # Note that the output from this function tells you the required observations per group # rather than the total observations required pwr.t.test(d = size, sig.level = .05, power = .80, type = "two.sample", alternative = "two.sided") 但是,通常,我们对效果的预期大小的猜测(至少是在我所研究的社会科学领域)至少是-粗略的猜测。如果我们对效果的大小有些怀疑,那会发生什么?快速功效计算可以告诉您,如果效果的大小是而不是,则需要次观察- 是为的效果具有足够功效的数量的倍。同样,如果效果的大小为,则只需要进行观察,即需要有足够的能力才能检测到的效果的70%.5 200 1.56 .5 …


1
计算统计功效
据我了解,我需要至少了解我提出的研究的三个方面(四个),以便进行功效分析,即: 测试类型-我打算使用Pearson's r和ANCOVA /回归-GLM 显着性水平(alpha)-我打算使用0.05 预期效果大小-我打算使用中等效果大小(0.5) 样本量 谁能推荐一个好的在线功率计算器,我可以用它进行事前功率计算。(SPSS可以进行先验功率计算吗?) 我遇到过GPower,但我正在寻找一种更简单的工具!

4
贝叶斯统计中是否需要进行功率分析?
我最近一直在研究经典统计的贝叶斯方法。在阅读了有关贝叶斯因子的信息后,我一直想知道从这种统计角度来看是否需要进行功效分析。我想知道这是贝叶斯因子的主要原因,实际上似乎只是似然比。一旦达到25:1,就好像我可以称之为一个夜晚。 我远吗?我还能做其他阅读以了解更多信息吗?当前正在阅读这本书:WM Bolstad 撰写的 “贝叶斯统计简介”(Wiley-Interscience;第二版,2007年)。


4
在两个独立比例的功效分析中,如何制定停止规则?
我是从事A / B测试系统的软件开发人员。我没有扎实的统计背景,但过去几个月一直在学习知识。 典型的测试方案包括比较网站上的两个URL。访客访问LANDING_URL,然后随机转发给URL_CONTROL或URL_EXPERIMENTAL。访客构成一个样本,并且当访客在该站点上执行某些所需的操作时,就会达到胜利的条件。这构成转化,转化率就是转化率(通常表示为百分比)。给定URL的典型转换率在0.01%到0.08%之间。我们运行测试以确定新URL与旧URL的比较。如果URL_EXPERIMENTAL被证明优于URL_CONTROL,我们替换URL_CONTROL用URL_EXPERIMENTAL。 我们使用简单的假设检验技术开发了一个系统。我在这里使用另一个CrossValidated问题的答案来开发此系统。 测试设置如下: 转化率估计CRE_CONTROL的URL_CONTROL使用历史数据来计算。 所希望的目标转化率CRE_EXPERIMENTAL的URL_EXPERIMENTAL是集。 通常使用0.95的显着性水平。 通常使用0.8的幂。 所有这些值一起用于计算所需的样本量。我正在使用R函数power.prop.test来获取此样本大小。 测试将一直进行到收集所有样品为止。此时,计算CR_CONTROL和的置信区间 CR_EXPERIMENTAL。如果它们不重叠,则可以宣布具有0.95的显着性水平和0.8的功效的获胜者。 但是,我们测试的用户有两个主要问题: 1.如果在测试过程中的某个时刻收集了足够的样本以显示明显的获胜者,是否可以停止测试? 2.如果在测试结束时没有宣布优胜者,我们是否可以进行更长的测试以查看是否可以收集足够的样本来找到优胜者? 应该注意的是,存在许多允许他们的用户完全按照我们自己的用户期望做的商业工具。我读到上面有很多谬论,但是我也遇到了停止规则的想法,并想探索在我们自己的系统中使用这种规则的可能性。 我们要考虑以下两种方法: 1.使用power.prop.test,将当前测得的转换率与当前样本数进行比较,查看是否已收集到足够的样本来宣布获胜者。 示例:已设置测试以查看我们的系统中是否存在以下行为: CRE_CONTROL:0.1 CRE_EXPERIMENTAL:0.1 * 1.3 使用这些参数,样本量N为1774。 但是,随着测试的进行并达到325个样本,CRM_CONTROL(测得的对照转化率)为0.08,CRM_EXPERIMENTAL为0.15。power.prop.test是以这些转化率运行的,N得出的是325。确切地说CRM_EXPERIMENTAL,要成为赢家,需要的样本数量!在这一点上,我们希望测试能够结束。类似地,如果测试达到1774个样本但未找到获胜者,但随后达到2122个样本,这足以表明结果CRM_CONTROL0.1和CRM_EXPERIMENTAL0.128是可以宣布获胜者的结果。 在一个相关的问题中,用户建议这种测试的可信度较低,这是因为鼓励提早停止采样,减少样本数量,而且容易受到估计偏差的影响,并且I型和II型错误的数量增加。有什么方法可以使此停止规则起作用?这是我们的首选方法,因为这对我们意味着更少的编程时间。也许此停止规则可以通过提供某种数值分数或一些分数来衡量测试的可信度而起作用,如果测试应尽早停止呢? 2.使用顺序分析或SPRT。 这些测试方法是专门针对我们所处的情况而设计的:我们的用户如何开始测试并以不浪费过多测试时间的方式结束测试?运行测试时间过长,或者必须使用不同的参数重新开始测试。 在上述两种方法中,我更喜欢SPRT,因为数学对我来说更容易理解,并且看起来似乎更容易编程。但是,我不明白如何在这种情况下使用似然函数。如果有人可以构造一个示例,说明如何计算似然比,似然比的累积总和,并继续执行一个示例,说明当某人继续监视,何时接受零假设和替代假设时的情况,这将有助于我们确定SPRT是否是正确的方法。

2
逻辑回归和t检验的功效如何比较?
逻辑回归和t检验的功效是否相等?如果是这样的话,它们应该是“等效数据密度”,这意味着在给定的固定alpha为0.05的情况下,相同数量的基础观测值会产生相同的功效。考虑两种情况: [参数t检验]:从二项式观察中抽取30个抽签,然后将所得值取平均值。对于A组(发生的二项式Pr为0.70),此操作完成30次;对于B组(发生的二项式Pr为0.75),完成30次。每组产生30个均值,代表从二项式分布中得出的1800次抽奖的摘要。进行58df t检验以比较均值。 [逻辑回归]:使用代表组成员身份的虚拟编码斜率执行逻辑回归,并进行1800次抽奖。 我的问题分为两部分: 给定的alpha为0.05,这些方法的功效是相同还是不同?为什么?我如何证明呢? 问题1的答案是否对进入t检验的样本量,t检验中每个组的样本量,基本的二项式概率或其他因素敏感?如果是这样,我怎么能(不用模拟)知道功率确实不同,什么样的变化会产生什么样的功率变化?或者,提供制定出的R代码,以使用仿真解决问题。

2
样本数量不相等:何时退出
我正在同peer审查一篇学术期刊文章,作者写了以下内容作为不报告任何推论统计数据的理由(我确定了这两组的性质): 总共的2349(1.1%)的受访者25报道X。我们适当地避免提供将X组与Y组(其他2,324名参与者)进行统计学比较的分析,因为这些结果可能是偶然性所驱动,而这种结果很少见。 我的问题是,这项研究的作者是否有理由在比较群体方面有所作为?如果没有,我会向他们推荐什么?


3
如果事先声明,可以动态增加样本数量吗?
我将研究一种刺激与受试者内部设计相比另一种刺激的优点。我有一个排列方案,旨在减少研究某些部分的顺序影响(任务类型顺序,刺激顺序,任务集顺序)。排列方案规定样本大小可被8整除。 要确定样本数量,我必须大胆猜测(在我的领域中是一个很好的传统),或者为我所需的功效计算样本数量。现在的问题是,我没有丝毫线索要观察多大的效果(这也是我所在领域的良好传统)。这意味着功率计算有些困难。另一方面,大胆猜测可能也是不好的,因为我要么得出的样本量太小,要么向参与者支付太多的钱,而在实验室中花费了太多的时间。 是否可以预先声明我分8个人加入参与者,直到我离开两个p值的通道?例如0.05 <p <0.30?或者,您会建议我如何继续?


3
伯努利试验中估计“成功”可能性所需的样本量
假设一个游戏提供了一个事件,该事件在完成时要么给出奖励,要么什么都不给出。确定是否给出奖励的确切机制尚不清楚,但我假设使用了随机数生成器,并且如果结果大于某个硬编码值,则可以获得奖励。 如果我想对工程师进行什么逆向工程以决定奖励的获得频率(估计为15%至30%),我该如何计算所需的样本数量? 我从这里的“真实概率估计器”部分开始:Checking_whether_a_coin_is_fair,但不确定我是否正朝正确的道路前进。我得到了〜1000个样本的结果,在95%置信度下最大误差为3%。 最终,这是我要解决的问题: 事件#1的X%给予奖励1.0R 事件#2的奖励率为1.4R,有%的时间 我想足够准确地估算X和Y,以确定哪个事件更有效。大样本量是一个问题,因为我最多每20分钟只能获取1个样本。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.