p值0.04993是否足以拒绝原假设?


20

在Wilcoxon符号秩统计显着性检验中,我们遇到了一些数据,得出值为。在的阈值下,此结果是否足以拒绝原假设,还是更安全地说该检验没有结论,因为如果将p值四舍五入到小数点后三位,则它变为?0.04993 p < 0.05 0.050p0.04993p<0.050.050


24
0.04993 <0.05,因此更低。您的本能很好,不能将P值信任到几个小数位,但是如果程序说的值小于0.05,则人们通常会将其视为已交付。真正的问题是迷信了固定水平的重要性测试,因此<0.05表示“真实”,“可发布”,“幸福原因”,而相反的意思是“虚幻”,“不可发布”,“痛苦原因” 。有关统计的大多数优秀入门文章都在某种程度上进行了讨论。Freedman,Pisani,Purves,Statistics是一个很好的人。纽约:WW诺顿,任何版本。
Nick Cox

8
您必须问自己,如果p值为0.051,您将做出什么决定?如果是0.049怎么办?您会做出不同的决定吗?为什么?
AlefSin

2
谢谢您的意见。在我们的情况下,我们不在考虑数据是否可发布等。我们只是在考虑对结果的统计意义发表论文声明,我们要确保我们的声明不正确或不正确。 。
Islam El-Nabarawy

3
我想到了报告P = 0.04993。很难预测评论者或编辑者的评论。如果要舍入,指定一致的舍入约定总是一个好主意,并且被广泛接受。有些人会四舍五入到3 dp,也可能会使用某种主演约定,因此报告0.050(3 dp)并将其主演为<0.05是一致的。
Nick Cox

2
我不知道...也许我们应该运行双重引导程序并计算值的置信区间!老实说,我会报告:“这些发现是临界值,0.049 < p < 0.050。” 那时,您正在不停地梳理头发,每个人都突然想起,假阳性的1/20几率是科学运作的一种完全任意的方式。p0.049<p<0.050
2013年

Answers:


21

这里有两个问题:

1)如果您要进行正式的假设检验(如果您已经引用了我书中的p值,那么正式的拒绝规则是什么)?

将测试统计信息与临界值进行比较时,临界值在拒绝区域内。尽管当一切都是连续的时,这种形式并不重要,但是当测试统计量的分布是离散的时,形式就很重要。

相应地,在比较p值和显着性水平时,规则是:

          拒绝如果pα

请注意,即使您将p值四舍五入至0.05,实际上,即使p值正好是0.05,也应该正式拒绝

2)关于“我们的p值告诉我们什么”,那么假设您甚至可以将p值解释为“反对零值的证据”(假设对此的观点有所分歧),则0.0499和0.0501不会确实对数据说了不同的话(效果大小趋于几乎相同)。

我的建议是(1)正式拒绝空值,并可能指出,即使正好是0.05,仍应拒绝它;(2)请注意,没有什么特别特殊的α=0.05,这是非常接近临界-甚至是略小的意义门槛不会导致排斥反应。


2
但是,同样,您可以使用非常相似的参数不拒绝null。0.05没什么特别的,如果您选择0.06作为极限,您可能不会问这个问题,但是情况不会有太大不同。相反,在这些情况下,我会问:“真正的-这个结果的生命意义是什么?”。例如,如果这是一个生物学实验,我将寻找特定结果的生物学意义,按原样报告p值,而对生物学进行评论。
nico

@nico,这已经是我项目的重点(2); 反对过分依赖(1)中的形式化方法
Glen_b-恢复莫妮卡

谢谢格伦和尼科。这部分数据是我们实验的第二部分,因此我们最终只是按原样报告了该值。无论如何,我将其标记为可接受的答案。再次感谢所有参与回答或评论的人。
Islam El-Nabarawy

5

它在情人眼中。

αα=0.05

因此,实际上可以归结为AlefSin之前的评论。您的问题不能有“正确答案”。报告您得到的信息,四舍五入。

关于“意义的重要性”的文献很多。见例如最近德国著名统计学家沃尔特·克莱默之一的论文“的统计显着性崇拜-经济学家应该和不应该做,使他们的数据说话”,Schmollers年鉴 131,455-468,2011。


-6

p=0.05

关键问题是这样的短语:“我们遇到了一些数据……”。

pp

这种统计上的不当行为有一个名字:数据挖掘。我对在论文中将其作为有趣的假设进行报道感到矛盾。您是否希望它具有某种物理原因?

但是,有一种出路。也许你决定先验执行仅这一个对刚才这个测试一个数据集。您将其记录在实验室笔记本上的某个人面前,以便稍后进行验证。然后,您进行了测试。

p=0.05


14
这可能过度依赖于特定的措词选择;您可能只是从一个糟糕的单词选择中获得了很多假设-并不是这里的每个人都以英语为第一语言。作为一个潜在的问题绝对值得提出,但是简单地这么秃头地陈述(“绝对不是”)意味着您知道的比我们从这里所讲的要多得多。(此外,对“实验室笔记本”的引用意味着OP正在实验室中进行工作。我怀疑情况确实如此。再次,您暗示您对我们的了解比这里还多。)
Glen_b -Reinstate Monica

10
迈克·麦科伊(Mike McCoy),谢谢您的回答,但在这种情况下,我担心Glen_b是正确的。我不是英语为母语的人,尽管我力求在我的技能允许的范围内进行流利的写作和口语,但用法和内涵仍在继续困扰着我。因此,在这种特殊情况下,直到发现重要的东西,我们才尝试其他方法。实际上,我们试图证明的是,某些误差值没有统计上的显着增加,在一种特定情况下,我们发现误差实际上已减小,并且当我们运行W检验时,这就是0.0499的地方。 。
Islam El-Nabarawy

1
迈克,我也没有在问题的措词上看到问题。似乎没有人看到数据监听,挖掘,挖掘等任何迹象……而这肯定在情人眼中。没有数学事实,而是统计学家选择的决策规则。重新阅读AlefSin,Glen在他的观点(2)中写的内容。
Skullduggery 2013年

3
@ IslamEl-Nabarawy如果要建立等效/无差异,则除了如何解释接近阈值的值或潜在的数据监听之外,还有许多其他问题。仅找到略高于.05(或选择的任何错误级别)的p值绝对是不够的。在这里和其他地方查找“进行等效性测试”,或者专门问一个问题,因为这是完全不同的问题。
晚会

4
“但是,有一种出路。也许您决定先验地对这一个数据集进行此测试。您将其记录在实验室笔记本上,在某人面前,以便稍后进行验证。然后你做你的测试。如果你这样做,那么你的结果是在p = 0.05的水平有效,你可以备份到怀疑论者喜欢我。否则,对不起,它不是一个统计显著结果”约犯谈话,直到证明无辜。因此,在没有法医证据排除学术不诚实的情况下,进行分析是没有价值的吗?嘘。
GoF_Logistic
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.