Questions tagged «hypothesis-testing»

假设检验评估数据是否与给定假设不一致,而不是随机波动的影响。


3
ANOVA假设(方差相等,残差的正态性)为何重要?
在运行方差分析时,我们被告知必须进行某些测试假设才能使其适用于数据。对于测试起作用的必要条件,我从未理解以下原因: 在设计的每个单元格中,因变量(残差)的方差应相等 对于设计的每个单元,您的因变量(残差)应近似正态分布 我了解关于是否需要满足这些假设存在一些灰色区域,但是出于争论的目的,如果在给定的数据集中完全不满足这些假设,那么使用ANOVA将会带来什么问题?

2
方差不等的t检验中非整数自由度的解释
SPSS t检验程序在比较2个独立均值时报告2次分析,其中1次假设均等方差,1次假设均等方差。假设方差相等时的自由度(df)始终是整数值(等于n-2)。如果未假定等方差,则df为非整数(例如11.467),并且不接近n-2。我正在寻求对用于计算这些非整数df的逻辑和方法的解释。

4
如何在固定效果模型中保持时间不变变量
我有一家大型意大利公司10年以上员工的数据,我想看看随着时间的推移,男女收入差距中的性别差异是如何变化的。为此,我运行池OLS: ,其中y是每年的对数收入,X i t包括因个体和时间而异的协变量,d t是年份假人,如果工人是男性,则m a l e i等于1,否则为零。yit=X′itβ+δmalei+∑t=110γtdt+εityit=Xit′β+δmalei+∑t=110γtdt+εit y_{it} = X'_{it}\beta + \delta {\rm male}_i + \sum^{10}_{t=1}\gamma_t d_t + \varepsilon_{it} yyyXitXitX_{it}dtdtd_tmaleimalei{\rm male}_i 现在,我担心某些协变量可能与未观察到的固定效应相关。但是,当我使用固定效应(内部)估算器或初次差异时,我失去了性别虚拟对象,因为该变量不会随时间变化。我不想使用随机效应估计器,因为我经常听到人们说它提出的假设非常不现实,不太可能成立。 有什么方法可以同时保持性别虚拟和控制固定效果?如果有办法,我是否需要对性别变量的假设检验进行聚类或照顾其他带有错误的问题?

5
Logistic回归是非参数检验吗?
我最近通过电子邮件收到了以下问题。我将在下面发布答案,但是我很想听听其他人的想法。 您是否将逻辑回归称为非参数检验?我的理解是仅仅标记测试非参数是不够的,因为它的数据不是正态分布的。这更多与缺乏假设有关。逻辑回归确实有假设。


4
如何在假设检验中指定原假设
如何为原假设选择问题的最佳经验法则是什么。例如,如果我要检查假设B是否为真,我应该使用B作为零值,使用B作为替代假设,还是将NOT B用作零值?我希望问题清楚。我知道这与我要最小化的错误(类型I?)有关,但我一直忘了它的发展,因为我没有为它建立清晰的直觉。谢谢。

4
接受原假设
这是关于统计学和其他科学交叉的讨论问题。我经常遇到同样的问题:我领域的研究人员倾向于说,当p值不小于显着性水平时,没有任何影响。一开始,我经常回答这不是假设检验的工作原理。鉴于这个问题多久出现一次,我想与经验丰富的统计学家讨论这个问题。 让我们考虑一下 “最佳出版集团”《自然通讯生物学》最近在科学期刊上发表的一篇论文(有多个示例,但我们只关注其中一个) 研究人员通过以下方式解释不具有统计意义的结果: 因此,长期适度的热量限制可以延长寿命并增强灵长类动物的健康,但它会影响大脑灰质的完整性,而不会影响认知能力。 证明: 然而,对照和限制热量的动物在Barnes迷宫任务中的表现没有差异(LME:F = 0.05,p = 0.82;图2a)。同样,自发的轮换任务也没有揭示对照动物和受卡路里限制的动物之间的任何差异(LME:F = 1.63,p = 0.22;图2b)。 作者还提出了对缺乏效果的解释-但关键不是解释,而是主张本身。所提供的图对我来说看起来很不一样(图2)。 此外,作者忽略了先验知识: 已经报道了热量限制对大鼠以及人类大脑和情绪功能的有害影响 对于庞大的样本量,我可以理解相同的主张(没有影响=在那里没有实际的显着影响),但是在特定情况下,使用了复杂的测试,而且对我来说执行功率计算并不明显。 问题: 我是否忽略了使他们的结论成立的任何细节? 考虑到需要报告科学中的负面结果,如何证明这不是“没有结果”(),而是“负面结果(例如,各组之间没有差异)”使用统计数据?我了解到,对于巨大的样本量,即使与零值的偏差很小,也会导致拒绝,但让我们假设我们拥有理想的数据,并且仍然需要证明零值实际上是正确的。p > αp>αp > \alpha 统计学家是否应该始终坚持数学上正确的结论,例如“拥有这种能力,我们无法检测出巨大​​的影响”?来自其他领域的研究人员强烈不喜欢这种负面结果的表述。 我很高兴听到对这个问题的任何想法,并且已经阅读并理解了该网站上的相关问题。从统计的角度来看,对问题2)-3)有明确的答案,但是我想了解在跨学科对话的情况下必须如何回答这些问题。 UPD:我认为阴性结果的一个很好的例子是医学试验的第一阶段,即安全性。什么时候科学家可以确定这种药物是安全的?我猜他们将两组进行比较并对此数据进行统计。有没有办法说这种药是安全的?Cochrane使用准确的“未发现副作用”,但医生说这种药物是安全的。当描述的准确性和简单性之间达到平衡时,我们可以说“对健康没有影响”吗?

5
如何计算线性回归与已知理论线之间是否具有统计学上的显着差异?
我有一些数据大致沿着直线拟合: 当我对这些值进行线性回归时,我得到一个线性方程: y=0.997x−0.0136y=0.997x−0.0136y = 0.997x-0.0136 在理想世界中,该等式应为。y=xy=xy = x 显然,我的线性值接近理想值,但不完全相同。我的问题是,如何确定此结果是否具有统计意义? 0.997的值是否明显不同于 1?-0.01 与0 显着不同吗?还是它们在统计上是相同的,我可以得出具有一定合理置信度的结论?y=xy=xy=x 我可以使用什么好的统计检验? 谢谢

4
零假设为真的概率
因此,这可能是一个常见问题,但我从未找到令人满意的答案。 您如何确定原假设为真(或假)的概率? 假设您给学生提供了两种不同的测试版本,并且想要查看这些版本是否等效。您执行t检验,其p值为.02。多么好的p值!那一定意味着测试不可能等效,对吗?不会。不幸的是,看来P(results | null)不能告诉您P(null | results)。正常的做法是在遇到低p值时拒绝原假设,但是我们如何知道我们并未拒绝很可能是真的原假设呢?举一个愚蠢的例子,我可以设计一个误报率为0.02的埃博拉病毒测试:将50个球装进一个桶中,并在上面写下“埃博拉病毒”。如果我对此进行测试,然后他们选择“埃博拉”球,则p值(P(捡起球|他们没有埃博拉))为.02, 到目前为止,我已经考虑过的事情: 假设P(null | results)〜= P(results | null)–对于某些重要应用显然是错误的。 在不知道P(null |结果)的情况下接受或拒绝假设–那么我们为什么接受或拒绝它们呢?难道我们不是要拒绝我们认为是假的而是接受是假的全部吗? 使用贝叶斯定理–但是您如何获得先验?您是否最终还是回到原地试图通过实验确定它们?先验地挑选他们似乎很武断。 我在这里发现了一个非常类似的问题:stats.stackexchange.com/questions/231580/。这里的一个答案似乎基本上是在说,因为这是贝叶斯问题,所以问零假设为真的可能性是没有意义的。也许我的心是贝叶斯,但我无法想象不问这个问题。实际上,p值最常见的误解似乎是它们是真实零假设的概率。如果您真的不能作为常客问这个问题,那么我的主要问题是#3:如何在不陷入困境的情况下获得先验知识? 编辑:感谢您的所有周到的答复。我想谈谈几个共同的主题。 概率的定义:我肯定对此有很多文献,但是我的幼稚概念是“相信完全理性的人会提供信息”或“在这种情况下能使利润最大化的下注几率”被重复,未知数被允许改变”。 我们可以知道P(H0 |结果)吗?当然,这似乎是一个棘手的问题。但是我相信,每个概率在理论上都是可以理解的,因为概率总是以给定信息为条件。每个事件都会发生或不会发生,因此没有完整的信息就不存在概率。它仅在没有足够信息时存在,因此应该是可知的。例如,如果我被告知某人有一个硬币,并询问正面的概率,我会说是50%。可能硬币的正面重量为70%,但我没有得到该信息,所以我所拥有的信息的概率为50%,就像它碰巧掉在地上一样,概率为70%当我知道这一点。由于概率总是以一组(不足的)数据为条件, 编辑:“总是”可能太强了。可能存在一些我们无法确定概率的哲学问题。尽管如此,在现实世界中,尽管我们可以“几乎永远”拥有绝对的确定性,但“几乎总是”应该是一个最佳估计。

5
效果大小真的优于p值吗?
在应用研究中,很多重点放在依赖和报告效应大小上,而不是p值上(例如,下面进一步引用)。 但是,不是像p值一样,效应大小是随机变量,并且在重复相同实验时,样本之间的影响大小可能会有所不同吗?换句话说,我在问什么统计特征(例如,效应大小在样本之间的可变性小于p值)使效应大小比p值更好的证据衡量指标? 但是,我应该提到一个重要的事实,它将p值与效果大小区分开。也就是说,效果大小之所以可以估算,是因为它具有总体参数,而p值却没有任何估算,因为它没有任何总体参数。 对我而言,效应大小只是在某些研究领域(例如,人类研究)有助于将来自各种研究人员开发的测量工具的经验发现转化为通用度量的度量(可以说,使用人类研究可以更好地适应这种度量)量化研究俱乐部)。 也许如果我们将一个简单的比例作为效应大小,那么以下(R中的)是什么表明效应大小超过p值的优势?(p值会发生变化,但效果大小不会改变) binom.test(55, 100, .5) ## p-value = 0.3682 ## proportion of success 55% binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55% 请注意,大多数效果大小与测试统计量线性相关。因此,使用效应量进行零假设检验很容易。 例如,事前设计产生的统计量可以很容易地转换为相应的科恩效应大小。这样,Cohen d的分布只是at分布的比例定位版本。 引号: 由于p值是混杂指标,因此理论上100个样本大小不同且影响大小不同100项的研究可能具有相同的单个p值,而100个具有相同单一影响值的研究可能各自具有100个不同的p值。 要么 p值是随样本不同而变化的随机变量。。。。因此,比较两个不同实验的p值,或对同一实验中测量的两个变量的测试的p值进行比较,并声明一个比另一个重要,是不合适的。 引文: 汤普森(2006)。行为统计的基础:一种基于洞察力的方法。纽约,纽约:吉尔福德出版社。 Good,PI和Hardin,JW(2003)。统计中的常见错误(以及如何避免)。纽约:威利。

2
错误规范下的统计推断
统计推断的经典处理方法基于这样的假设,即使用了正确指定的统计数据。也就是说,生成观测数据的分布是统计模型: 但是,在大多数情况下,我们不能假设这是真的。我想知道,如果我们放弃正确指定的假设,统计推断程序会发生什么。P∗(Y)P∗(Y)\mathbb{P}^*(Y)yyyMM\mathcal{M}P∗(Y)∈M={Pθ(Y):θ∈Θ}P∗(Y)∈M={Pθ(Y):θ∈Θ}\mathbb{P}^*(Y) \in \mathcal{M}=\{\mathbb{P}_\theta(Y) :\theta \in \Theta\} 我发现怀特1982年在误配下对ML估计进行了一些研究。有人认为最大似然估计量是的一致估计量 可使统计模型内所有分布和真实分布\ mathbb {P} ^ *中的KL散度最小。Pθ1=argminPθ∈MKL(P∗,Pθ)Pθ1=arg⁡minPθ∈MKL(P∗,Pθ)\mathbb{P}_{\theta_1}=\arg \min_{\mathbb{P}_\theta \in \mathcal{M}} KL(\mathbb{P}^*,\mathbb{P}_\theta)P∗P∗\mathbb{P}^* 置信度估计量会怎样?让我们概述置信度估计量。令 δ:ΩY→2Θδ:ΩY→2Θ\delta:\Omega_Y \rightarrow 2^\Theta为集合估计量,其中ΩYΩY\Omega_Y是样本空间,2Θ2Θ2^\Theta是在参数空间\ Theta上设置的功效ΘΘ\Theta。我们想知道的是\ delta产生的集合δδ\delta包含真实分布P∗P∗\mathbb{P}^*,即P∗(P∗∈{Pθ:θ∈δ(Y)}):=A.P∗(P∗∈{Pθ:θ∈δ(Y)}):=A.\mathbb{P}^*(\mathbb{P}^* \in \{P_\theta : \theta \in \delta(Y)\}):=A. 但是,我们当然不知道真实的分布P∗P∗\mathbb{P}^*。正确指定的假设告诉我们P∗∈MP∗∈M\mathbb{P}^* \in \mathcal{M}。但是,我们仍然不知道模型是哪种分布。但是,infθ∈ΘPθ(θ∈δ(Y)):=Binfθ∈ΘPθ(θ∈δ(Y)):=B\inf_{\theta \in \Theta} \mathbb{P}_\theta(\theta \in \delta(Y)):=B是概率A的下限AAA。公式BBB是置信度集合估计器的置信度水平的经典定义。 如果我们放弃正确指定的假设,那么不一定是的下界,是我们实际上感兴趣的术语。确实,如果我们假设模型指定不正确(在大多数现实情况下都是如此),则为0,因为统计模型不包含真实分布。A A P * MBBBAAAAAAP∗P∗P^*MM\mathcal{M} 从另一个角度来看,当模型指定不正确时,人们可能会想到与什么相关。这是一个更具体的问题。如果模型指定不正确,是否仍然具有含义。如果没有,为什么我们还要打扰参数统计呢?乙BBBBBB 我猜怀特1982年在这些问题上有一些结果。不幸的是,由于缺乏数学背景,我无法理解那里写的很多东西。

2
样本数量不相等:何时退出
我正在同peer审查一篇学术期刊文章,作者写了以下内容作为不报告任何推论统计数据的理由(我确定了这两组的性质): 总共的2349(1.1%)的受访者25报道X。我们适当地避免提供将X组与Y组(其他2,324名参与者)进行统计学比较的分析,因为这些结果可能是偶然性所驱动,而这种结果很少见。 我的问题是,这项研究的作者是否有理由在比较群体方面有所作为?如果没有,我会向他们推荐什么?

3
p = 5.0%有意义吗?
今天有人问我,是否认为p值为0.05(精确)是有意义的(给定的alpha = 5%)。我不知道答案,而Google给出了两个答案:(a)如果p小于5%,则结果显着;(b)如果p小于5%或等于5%,则结果显着。 当然,这些网站都没有引用任何人。为什么要选一个-这是常识,而5%是任意的。但这无助于我告诉我的学生要记住的事情。 因此,这是我关于检验假设的绝望问题:如果p值恰好是alpha,我认为结果是否重要?在这种情况下,权威引用是什么? 非常感谢你


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.