p值什么时候具有欺骗性?


14

我们应该注意哪些数据条件,其中p值可能不是决定统计显着性的最佳方法?是否有属于此类的特定问题类型?


2
狡猾的答案:几乎总是这样。当分析人员检查数据时,有很大的动机来创建Type 1错误(即“错误警报”),因此您遇到的几乎所有p值都“过小”。
statsRus 2014年

7
只是将其扔在那里,但是最好不要在Cross Validated上提出这种问题?
buruzaemon

1
@buruzaemon:也许吧。我进行了搜索,这是最接近的匹配项:stats.stackexchange.com/questions/67320 / ... 似乎没有多少问题与之相关
Alex I

Answers:


9

您正在询问Data Dredging,这是在针对数据集测试大量假设或针对相同数据建议的数据集测试假设时发生的事情。

特别是,检查多重假设危险,并检验数据提出的假设

解决方案是对False发现率Familywise错误率使用某种校正,例如Scheffé 方法或(非常老派的)Bonferroni校正

以一种不太严格的方式,它可能有助于通过每个统计结果的比值比(OR)的置信区间过滤您的发现。如果比值比的99%置信区间为10-12,则OR≤1且几率极小,尤其是在样本量也很大的情况下。如果您发现这样的内容,即使它来自数百万个假设的检验,也可能会产生很大的效果。


1
尽管Bonferroni绝对是老派,但它仍然很受欢迎。与之相关的是一种称为Šidák校正的方法(en.wikipedia.org/wiki/%C5%A0id%C3%A1k_correction)。我之所以这么说是因为,在我开发的大规模定向广告系统中,我们能够将这种方法作为Hive中的UDF实施。但是,只有在测试之间具有独立性时,这才更好。如果不是,您必须退回Bonferroni或其他方法。
克里斯·西莫卡特

5

您不应该在上下文之外考虑p值。

一个相当基本的要点(如xkcd所示)是您需要考虑实际执行的测试数量。显然,即使零假设每次都是正确的,您也不应该为20个测试中的一个看到p <0.05感到震惊。

这种情况的一个更微妙的例子发生在高能物理学中,被称为“ 别处观察”效应。搜索可能表示一个新粒子的信号的参数空间越大,您看到的明显只是随机波动的视在信号的可能性就越大。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.