分布假设检验-如果您不能“接受”原假设,那么这样做有什么意义呢?


26

各种假设检验,例如 GOF检验,Kolmogorov-Smirnov,Anderson-Darling等,都遵循以下基本格式:χ2

H0:数据遵循给定的分布。

H1:数据不遵循给定的分布。

通常,人们会评估这样的说法,即某些给定数据遵循某种给定分布,并且如果有人拒绝,则该数据在某个级别不适用于该给定分布。 αH0α

但是,如果我们不拒绝怎么办?我一直被教导不能接受“,因此,基本上,我们没有证据表明拒绝“。也就是说,没有证据表明我们拒绝数据遵循给定的分布。H 0 H 0H0H0H0

因此,我的问题是,如果我们不能断定数据是否遵循给定的分布,那么进行此类测试的意义何在?


1
仅回答“如果不能接受零假设,测试的意义(通常)是什么呢?”。在所有情况下,统计测试都不是决策的唯一依据。相反,我们做出决定并使用数据来量化I / II型错误的风险/成本。如果仅用有用的图形,QQ图表和预测性统计数据总结拟合的质量或程度,就可以适当地建议我们“接受null”的风险。
AdamO '18年

@AdamO当我三年前问这个问题时,我刚完成一个本科数学(统计重点)学位。现在,我进入了MS stats计划的一半,并且已经做了一些专业的工作,现在我明白了。不幸的是,很多本科生课程中如何教授统计资料,但我离题了。
单簧管

Answers:


37

从广义上讲(不仅是拟合优度检验,而且在许多其他情况下),您不能简单地断定null是真实的,因为在任何给定的样本量下,有些选择都可以与null有效地区分开。

这是两个分布,一个标准正态(绿色实线)和一个看起来相似的分布(90%标准正态和10%标准化beta(2,2),用红色虚线标出):

在此处输入图片说明

红色的是不正常的。在,我们几乎没有机会发现差异,因此我们不能断言数据是从正态分布中提取的-如果它是从非正态分布(如红色)中提取的呢?n=100

具有相同但较大参数的标准化beta的较小部分将很难被视为与正常值不同。

但是,鉴于真实数据几乎永远不会来自某种简单的分布,因此,如果我们有一个完善的预言(或有效地无限大的样本量),我们将基本上总是拒绝数据来自某种简单的分布形式的假设。

正如乔治·博克斯(George Box)所说的那样:“ 所有模型都是错误的,但有些模型是有用的。

考虑例如测试正常性。可能数据实际上来自接近正常值的东西,但是它们会完全正常吗?他们可能永远不会。

取而代之的是,您所期望的那种情况就是您所描述的情况。(例如,参见“正常性测试本质上是没用的吗?”,但是这里还有许多其他文章也提出了相关观点)

这就是我经常向人们建议他们真正感兴趣的问题的部分原因(通常更接近于“我的数据是否足够接近分布,因此我可以在此基础上做出适当的推断?”)拟合优度测试未很好回答。就正态而言,他们希望应用的推论程序(t检验,回归等)通常在大样本中往往效果很好-即使原始分布明显很不正常,通常也是如此。体格测试很可能会拒绝正常性。仅当问题无关紧要时,使用最有可能告诉您数据不正常的过程几乎没有用。F

再次考虑上图。红色分布是非正态的,对于非常大的样本,我们可以拒绝基于它的样本进行的正态性检验……但是在较小的样本量,回归和两个样本t检验(以及许多其他检验)下除了)会表现得非常好,以至于甚至不必担心这种非正常性。

类似的考虑不仅扩展到其他分布,而且在很大程度上扩展到大量的假设检验(例如,甚至是的两尾检验)。一个人也可能会问同样的问题- 如果我们不能得出均值是否具有特定值的结论,那么进行这种检验的意义何在?μ=μ0

您也许可以指定一些特定形式的偏差并查看等效检验,但是由于要通过多种方式使分布接近但又不同于假设的差异,因此拟合优度有点高差异形式可能会对分析产生不同的影响。如果替代方案是一个更广泛的家族,在特殊情况下将null包括在内,则等效测试更有意义(例如,针对gamma进行指数测试)-实际上,“两面测试”方法可以实现,这可能是一种形式化“足够接近”的方法(或者伽玛模型是正确的,但实际上实际上可以肯定,它会被普通的拟合优度检验所拒绝,

拟合优度检验(通常更广泛地说是假设检验)实际上仅适用于相当有限的情况。人们通常想回答的问题不是那么精确,而是更加模糊和难以回答-但正如约翰·图基(John Tukey)所说,“ 对正确的问题(通常是模糊的)的近似答案要比对问题的确切答案更好。错误的问题,可以总是精确地回答。

相对较模糊的问题,合理的方法可能包括模拟和重新抽样调查,以评估所需分析对您正在考虑的假设的敏感性,而其他情况也与可用数据合理地相符。

(这也是通过污染实现鲁棒性方法的基础的一部分-本质上是通过观察在Kolmogorov-Smirnov意义上处于一定距离内的影响而得出的)ε


格伦,这是一个很好的答案。是否有更多资源用于“合理的方法来回答更模糊的问题”?看到人们正在回答“我的数据是否足够接近我的目的来分发X”的工作示例,真是太好了。在上下文中。
笨拙的乔·皮特2014年

2
@StumpyJoePete有一个答案,一个更模糊的(但略有不同)问题的例子在这里,在模拟实验,法官在大约什么样的样本规模可能是合理的应用t检验偏斜(指数,比方说)数据。然后,在后续问题中,OP提出了有关样本的更多信息(它是离散的,结果证明比“指数”所建议的要歪斜得多),...(ctd)
Glen_b -Reinstate Monica

2
(ctd)...对该问题进行了更详细的探讨,再次使用了模拟。当然,在实践中,需要有更多的“来回”操作以确保它已正确地适合个人的实际需求,而不是人们最初的解释。
Glen_b-恢复莫妮卡2014年

谢谢!那正是我一直在寻找的东西。
笨拙的乔·皮特2014年

17

我第二个@Glen_b的答案,并补充说,通常,“缺乏证据不是缺乏证据”的问题使假设检验和P值比看起来有用的少。即使在拟合优度评估中,估计通常也是更好的方法。可以使用Kolmogorov-Smirnov距离作为度量。没有误差的情况下很难使用它。保守的方法将采用KS距离的置信度上限来指导建模。这将(适当地)导致很多不确定性,这可能导致人们得出结论,首先选择可靠的方法是首选。考虑到这一点,回到最初的目标,当人们将经验分布与两种以上可能的参数形式进行比较时,最终拟合分布的真实方差没有比经验累积分布函数更好的精度。因此,如果没有主题理论来驱动分布的选择,


3
我无法理解为什么它被否决了。这里有一些要点。如果投票否决的人解释他们认为是什么问题,那将会有所帮助。也许我们会学到一些东西。
Glen_b-恢复莫妮卡2014年


2

我认为这是一个完美的例子,可以说明学术工作与实际决策之间的差异。在学术环境中(我在哪里),只要他人认为合理,您就可以争论任何方式。因此,从本质上讲,我们最终会陷入无休止的,有时是圆形的,泥泞的驳船。从这个意义上讲,这为人们提供了一些工作要做。

但是,如果您确实有能力真正做出决定,那么答案肯定是肯定的。优柔寡断会损害您作为决策者的声誉。当然,做出选择不仅涉及统计,而且有时还涉及赌博和信仰飞跃。总而言之,这种练习在一定程度上有助于决策。但是,是否仅依靠此假设检验来做出决定则完全不同。


2
这是不正确的恕我直言。我读过的最好的书是Nate Silver的《信号与噪声》,它解释了为什么总是将不确定性纳入决策的每个阶段来做出更好的决策。举例来说,赢球扑克玩家是那些谁从来不相信有一定的手的概率为0或1
弗兰克·哈瑞尔

1
@FrankHarrell我想知道您将如何回答诸如是否修建公路,是否购买股份的问题。这是一个是或否的问题。这些是实际决策者需要回答的问题。
LaTeXFan 2014年

1
@FrankHarrell当然,统计数据在帮助做出决策中起着一定作用。但是,从鲁棒性的角度来看,我们要做的只是逼近现实。数学根本无法解释很多事情。这就是其他手段像本能一样发挥作用的地方。
LaTeXFan 2014年

1
有不同类型的决策。有些是不可撤销的。有些人几乎是这样,例如,购买股票但像鹰一样看着它。有些是完全可逆的。带着不确定性与您一起可以做出更好的决定并进行快速更正。有时最好的做法是“不做决定,获取更多数据”,这正是R. Fisher在值较大时所建议的。使用任意的切入点创建一个坚决而坚定的决策只会给人做正确事的幻想。这是理论与实践相结合的地方。P
弗兰克·哈雷尔

1
@FrankHarrell谢谢您的评论。我认为您在不可撤销的决定与其他决定之间的区别是很重要的。本质上,它与问题的时间维度有关。在短时间内,大多数决定都是无法撤销的。这是当现场有人打电话时发生的情况。另一方面,如果我们可以提供长期的看法,那么您是对的-最好拥有一个能够对环境变化做出反应的系统。即使这样,还是不可避免的,无论是经济上还是物理上的损害。
LaTeXFan 2014年

2

关键是,从纯粹的统计角度来看,您不能接受,但实际上您可以接受。例如,如果您使用风险价值或类似方法估算投资组合的风险,则投资组合收益的分配非常重要。那是因为风险由分布的尾部定义。

在教科书的情况下,通常以正态分布为例。但是,如果您的投资组合回报率很高(通常如此),则正态分布近似值会低估风险。因此,重要的是要检查收益并决定是否要使用正态近似。请注意,这不一定意味着要运行统计测试,它可能是QQ图或其他方式。但是,您必须基于收益分析和收益模型在某个时候做出决定,无论是否使用正常。

因此,出于所有实际目的,即使不是严格的统计意义,不拒绝也意味着接受。您将接受正常值并将其用于您的计算中,该值将每天显示给高层管理人员,监管人员,审计师等。在这种情况下,不拒绝会在各个方面产生深远的影响,因此甚至比愚蠢的统计结果更强大。


0

法庭上没有任何被告是无辜的。他们有罪(拒绝无辜的无辜假说)或无罪(不拒绝无罪推定)。

缺乏证据并不意味着缺乏证据。


-1

因此,我的问题是,如果我们不能断定数据是否遵循给定的分布,那么进行此类测试的意义何在?

如果您打算与其他分布(或一组分布)进行比较,那么它可能是一个有用的工具。

我会说:我手头有一组观察结果,我认为这些观察结果可能呈正态分布。(我之所以这样认为,是因为我看到了我满意的类似观察结果,因此合理地遵循了正常曲线。)我也认为它们可能不遵循正常曲线,而是遵循某些规则的非正常曲线。(我认为这可能是因为我看到了这样的数据体,它们不遵循正态曲线,但有偏斜等。)3然后,我沿着以下几行进行查询:来自正态分布,我得到的卡方会多久出现一次?结论是:“十分罕见,只有一百次两次。” 然后,我进行查询,但没有陈述也没有计算,但我认为完成一个有效的论点绝对必要,如下所示:如果分布是非正态分布,则根据卡方差判断的这种经历会经常发生。(我所要做的只是想象非正态曲线具有所观察到的分布的偏斜特征。)因此,我基于以下原则拒绝正态假设:我接受一种替代考虑的假设之一,在该假设中经历的事件会更多频繁。我说,否定假设的拒绝仅在愿意接受替代方案时才有效(该替代方案不一定在所有方面都得到精确定义)。)因此,我拒绝基于以下原则的正常假设:我接受一种替代考虑的假设之一,在该假设中,经历事件的发生频率会更高。我说,否定假设的拒绝仅在愿意接受替代方案时才有效(该替代方案不一定在所有方面都得到精确定义)。)因此,我拒绝基于以下原则的正常假设:我接受一种替代考虑的假设之一,在该假设中,经历事件的发生频率会更高。我说,否定假设的拒绝仅在愿意接受替代方案时才有效(该替代方案不一定在所有方面都得到精确定义)。

现在,我所描述的推理路线(与我通常所描述的相反)将解释为什么我的决策在第三和第四种情况下与常规决策不同。

关于第三种情况,在我尝试了卡方检验后,我得出了结论,即在与正态无差异的假设下,极少出现卡方如此大的分布。到目前为止,我们所处的位置与第二种情况下的位置完全相同。但是,现在让我研究一下,如果原始供应是正常的非正常供应,这种经历会发生的可能性。这种经历会更频繁地发生吗?没有理由这么说。该分布是完全对称的,即偏度为零(均值的两边恰好有50%的情况),并且粗略地检查了不同类别中与预期频率的差异,表明它们不是系统误差。 tematic,即 正偏差和负偏差以随机顺序交替出现。从任何合理的非正态曲线都不会经常期望这样的分布。因此,我们没有理由拒绝法线曲线。

我的观点是,除了愿意采用另一种假设之外,没有任何有效的理由拒绝零假设。

卡方检验在应用中遇到一些解释上的困难。约瑟夫·伯克森。美国统计协会杂志。卷 33,第203号(1938年9月),第526-536页。


1
伯克森的报价/论文对我而言似乎是相关且合理的。众所周知,即使样本量足够大,只要假设有测量误差,任何假定的分布都将被拒绝。如果我们发现在某些假定分布下数据不太可能,我们是否不应该尝试找出更好的选择?如果我们不能证明这些其他选择的合理性,我们应该在必要时采取尽可能简单的分配方式?谁能解释为什么这被否决了?
Livid 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.