根据另一个结果(例如正态性)选择统计检验


13

因此,我听说它说,根据另一个统计检验的结果选择一个统计检验不是一个好主意。这对我来说似乎很奇怪。例如,当其他一些测试表明残差不是正态分布时,人们经常选择使用非参数测试。这种方法似乎已被广泛接受,但似乎与本段的第一句话不一致。我只是希望对这个问题进行澄清。


3
仅仅因为残差不是高斯并不意味着您需要非参数检验。通常,您可以根据数据的性质(计数,0 1数据,连续,均值-方差关系,线性或非线性关系等)识别要使用的模型类型(是模型,而不是测试),并相应地拟合模型为了满足数据的特征,这些特征先前已经确定了要检验的假设是什么。一旦您感觉到拟合满足拟合模型的假设,便可以评估p值和其他统计信息,
恢复莫妮卡-G. Simpson 2013年

Answers:


14

鉴于是观察数据这样极端的,或者更极端的概率是真实的,那么什么是诠释,其中是通过那里是在测试的所产生的选择做了一个相机决策的过程到达那?答案是不可知的(或至少非常不可知的)。通过基于其他概率过程来决定是否进行测试,您对结果的解释变得更加复杂。 H 0 p p p p ppH0pppp预先完全选择样本量和分析计划后,才可以最大程度地解释这些值。在其他情况下,解释会变得困难,这就是为什么它不是一个“好主意”的原因。话虽这么说,这是一种被广泛接受的做法...毕竟,如果您发现计划运行的测试无效,为什么还要费心运行测试?这个问题的答案远不能确定。这全部归结为一个简单的事实,即无效假设重要性测试(的主要使用情况)具有一些难以克服的问题。p


我在Google上找不到任何讨论此现象的文章,可能是因为我使用了错误的搜索词。有人能够指出我在讨论基于测试的测试问题的文章的方向吗?
罗布·霍尔

1
@RobHall:这是“假设问题对虚构数据的重要性”的特定实例。cf. Wagenmakers,2007年,第2页。784. Wagenmakers专门在第二栏中提到了转换问题,“为了计算ap值,您需要知道如果数据结果不同,您会做些什么……这包括如果数据不同,您将要做的事情”。显然是非正态分布的…,只有在充分了解并事先指定采样计划后,才能计算p值。”
russellpierce 2013年

8

例如,当其他一些测试表明残差不是正态分布时,人们经常选择使用非参数测试。这种方法似乎已被广泛接受,但似乎与本段的第一句话不一致。我只是希望对这个问题进行澄清。

是的,很多人都做这种事情,并将第二种检验更改为在拒绝方差相等时可以处理异方差的检验,依此类推。

仅仅因为某些事情是普遍的,并不意味着它一定是明智的。

确实,在某些地方(我不会说出最坏的学科),实际上还教授了许多这种形式的假设检验,要视其他形式的假设检验而定。

这样做的问题是您的过程没有标称属性,有时甚至没有关闭。(另一方面,假设这样的事情根本不考虑潜在的极端违规行为,甚至会更糟。)

几篇论文表明,对于异方差情况,最好是简单地表现为方差不等于,而不是对其进行测试,仅在拒绝时对此进行处理。

在正常情况下,还不清楚。至少在大样本中,在很多情况下,正态性并不是那么关键(但具有讽刺意味的是,对于大样本,只要非正态性不是太疯狂,对正态性的检验就很可能会被拒绝)。一种例外是预测间隔,在这种情况下,您确实确实需要您的分布假设接近正确。

在某种程度上,一个问题是假设检验回答的问题与需要回答的问题不同。您实际上并不需要知道“数据是否真正正常”(几乎总是,先验不会完全正常)。问题是,“非正态程度会严重影响我的推论”。

第二个问题通常要么与样本量无关,要么实际上随着样本量的增加而变得更好-但是假设检验几乎总是会拒绝大样本量。

还有很多地方有强大的,甚至分布免费程序的情况下,这是非常接近,即使在正常的(也可能完全有效从它的一些相当温和的离职更有效) -在许多情况下,它似乎傻不拿同样谨慎的方法。


不错(+1)您能否提及您提到的关于异方差案例的文章?
gui11aume13 2013年

2
我不想指出任何问题,但是我一直在网上浏览它们,因此不难弄清哪些人会强调它(它们在历史上往往过分强调假设检验)。确实,在这里产生问题的人们的学科通常使发帖人认为他们必须使用正式测试。我看到的不仅是一两个学科,而且似乎确实经常这样做。为了使它合理地普遍,我只能假设在那些坚持它的领域中有一些特别著名的文本。
Glen_b-恢复莫妮卡

1
@ gui11aume 这是一个参考资料 ……这不是我要找的参考文献之一,但这确实说明了我的意思(初步测试会使情况更糟)。
Glen_b-恢复莫妮卡

2
最近,安德鲁·盖尔曼(Andrew Gelman)发表了一篇有关相关群体之间异质性的文章(至少关于为什么这样的过程有问题)。
安迪W

1
:与从前阵子这些讨论的一个问题stats.stackexchange.com/questions/305/...
russellpierce

8

其他人已经很好地解释了主要问题,但与潜在问题或相关问题相混淆

  1. 对P值的过度谨慎,至多是统计中的一种证据。

  2. 不愿意看到统计报告不可避免地是基于选择的组合,有些是基于证据的,有些则是基于先前分析,直觉,猜测,判断,理论等等的组合。

假设我和我谨慎的朋友“ Test Everything”都选择了对数转换作为响应,但是我基于物理推理和以前​​的数据经验混合得出了这个结论,而“ Test Everything”则基于Box-Cox测试和估计来选择对数刻度参数。

现在我们都使用相同的多元回归。我们的P值是否有不同的解释?根据一种解释,测试一切的P值取决于她之前的推论。我也使用了推论,但是大多数情况下,它们都是非正式的,基于一系列先前项目中的一系列先前图形,计算等。如何报告?

自然,对于“测试一切”和我自己,回归结果完全相同。

明智建议和可疑哲学的相同组合适用于预测变量和功能形式的选择。例如,经济学家被广泛教导要尊重先前的理论讨论并警惕数据监听,在每种情况下都有充分的理由。但在最弱的情况下,有关理论只是文献中先前提出的尝试性建议,很有可能经过一些经验分析。但是,对于许多作者而言,文献参考是神圣的,尽管从现有数据中学习值得怀疑。


非常清晰(+1)。
gui11aume13 2013年

1
+1。但是,您的分析性能与“测试一切”的分析之间存在长期差异。每次运行此分析时,您都将根据文献中的内容使用相同的策略(不会因实验而波动)。OTOH,数据随机样本,Box-Cox测试的输出会因研究而波动。
gung-恢复莫妮卡

那是愚蠢的,但从长远来看,我的经历确实也改变了。
Nick Cox 2013年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.