将结果称为“接近”或“某种”有意义是错误的吗？

13

关于类似问题的普遍共识是：将结果称为“高度重要”是错误的吗？“高度显着”是一种有效的（尽管不是特定的）方式，用于描述p值远低于预设的显着性阈值的关联强度。但是，如何描述稍微高于阈值的p 值呢？我已经看到一些论文使用诸如“有些重要”，“几乎重要”，“接近重要性”之类的术语。我发现这些术语有些不切实际，在某些情况下，这是一种界限分明的卑鄙的方式，可以从有意义的结果中排除有意义的结果。这些术语可以用来描述“仅仅错过”您的p值临界值的结果吗？

— 核王
source

3

我不相信有人建议用“重要性”来形容“协会的实力”。后者听起来更像是效果大小的量度。无论如何，请参阅此处以获取完整列表。

— Scortchi-恢复莫妮卡

1

@Scortchi-根据我的理解，很小的p值非常重要，这意味着所讨论的变量与目标之间有很强的联系。这是效果大小较大，数据很多或两者兼而有之的结果。对于较大的p值，支持变量和目标之间关联的证据很少。另外，喜欢您链接中的列表。

— 核王

9

以较小的效果量获得非常小的p值几乎可以称为“强关联”。这只会是可检测的关联。

— ub

2

我见过人们在行业中经常使用这些短语，但是在学术论文中却没有。

— 阿克萨卡（Aksakal）2015年

1

也许您的不适来自于认为p值（或从样本得出的任何其他数字）是某物的精确度量。

— 埃里克·塔

14

如果您想让“重要性”承认学位，那么就足够公平（“有点重要”，“相当重要”），但要避免使用一些词组来暗示您仍然对阈值的想法有所了解，例如“几乎重要” ，“接近重要性”或“处于重要时刻”（我最喜欢“博客可能出现的错误”中“仍然不重要” ），如果您不想表现得绝望的话。

— Scortchi-恢复莫妮卡
source

9

（+1）的链接。但是我认为诗歌创作的亮点是“濒临重大边缘（p = 0.06）”。

— Alecos Papadopoulos

1

@AlecosPapadopoulos：没错，尽管“以传统的显着水平调情”和“徘徊在统计上的显着水平”值得一提。“准重要”可能是另一个类别的赢家。

— Scortchi-恢复莫妮卡

4

事实上，前两个是真正的电影精神，从电影“统计舞男”（还有谁将会第一个调情与传统的电平？），而从电影“垂死的尾巴”，在这里我们看到了来势汹汹的秃鹫第二（p值）悬停在垂死的英雄上（统计意义）。

— Alecos Papadopoulos

1

就我个人而言，我会在措辞中放弃“重要”一词，并称p = 0.06“非常有趣”。对或错，当我第一次在6西格玛（Six Sigma）课程中遇到p值时，指导老师建议对于0.05 <= 0.1的正确标签是“需要更多数据”（基于难以获取其他数据点的工业环境），因此与任何“大数据”方案完全不同

— 罗伯特·德格拉夫

6

从我的角度来看，这个问题归结为进行重要性测试的实际含义。重要性检验被设计为做出拒绝否定假设或不否定假设的决定的手段。费舍尔本人引入了臭名昭著的0.05规则来做出（任意）决定。

基本上，重要性测试的逻辑是，用户必须在收集数据之前指定一个alpha级别来拒绝无效假设（通常为0.05）。在完成显着性测试后，如果p值小于alpha级别，则用户将拒绝null（否则将失败）。

之所以不能宣布某项效果非常显着（例如，在0.001水平）是因为您找不到比您打算发现的证据更强大的证据。因此，如果在测试前将alpha值设置为0.05，则无论p值多么小，都只能找到0.05的证据。同样，说“有些显着”或“接近显着”的效果也没有多大意义，因为您选择了0.05的这个任意标准。如果您从字面上解释显着性检验的逻辑，则大于0.05的值都不是显着的。

我同意，诸如“接近重要性”之类的术语通常用于增强出版前景。但是，我不认为应该为此归咎于作者，因为在某些科学中，当前的出版文化仍然严重依赖于0.05的“圣杯”。

其中一些问题已在以下文章中讨论：

Gigerenzer，G。（2004）。无忧的统计。社会经济杂志，33（5），587-606。

Royall，R。（1997）。统计证据：似然范例（第71卷）。CRC出版社。

— 马丁·瓦西廖夫
source

1

如果在Fisher的显着性检验中添加alpha等级，则您正在将Fisherian科学哲学与Neyman / Pearson的方法相结合。

— RBirkelbach

5

这个湿滑的斜率可以追溯到Fisher-Neyman / Pearson框架进行零假设假设显着性检验（NHST）。一方面，人们想对结果在原假设下的可能性进行定量评估（例如，效应量）。另一方面，在一天结束时，您需要一个单独的决定，即您的结果是否可能仅由于偶然性而产生。我们最终得到的是一种不太令人满意的混合方法。

在大多数学科中，将显着性的常规p设置为0.05，但确实没有理由将其设置为p。当我审阅一篇论文时，只要方法论是合理的，并且包括所有分析，数据等在内的整个图片都讲述了一个一致且可信的故事，我绝对不会认为作者认为0.06有意义，甚至是0.07。当作者试图用琐碎的数据以较小的效果制作一个故事时，就会遇到问题。相反，即使达到常规的p <0.05的意义，我也可能不会完全“相信”一项测试在实际中有意义。我的一位同事曾经说过：“您的统计数据应该简单地备份您的数据中已经显而易见的数据。”

话虽如此，我认为瓦西廖夫是正确的。鉴于发布系统已损坏，您几乎必须包含p值，因此，即使它需要像“ marginally”（我更喜欢）这样的形容词，也几乎必须使用“有意义”一词来认真对待。您总是可以在同行评审中与之抗争，但您必须首先到达那里。

— 海茨
source

5

两个p值本身之间的差异通常不大。因此，p值是否为0.05、0.049、0.051 ...都没关系...

关于p值作为关联强度的度量：p值不是直接关联强度的度量。p值是在假设参数假定为0的情况下发现与您观察到的数据相同或更多的极端概率的概率（如果您对原假设感兴趣，请参阅Nick Cox的评论）。但是，这通常不是研究人员感兴趣的数量。许多研究人员对回答诸如“参数大于某个选定的临界值的概率是多少？”之类的问题相当感兴趣。如果您对此感兴趣，则需要在模型中合并其他先验信息。

— RBirkelbach
source

6

我本着这种精神，但一如既往的小字体需要始终保持警惕。“假定参数假定为0”：经常但并非总是如此。也可以为其他假设计算P值。另外，对于“假定”，请阅读“假设”。

— Nick Cox 2015年

您完全正确-我将编辑我的答案！

— RBirkelbach

3

$p<\alpha$ $p>\alpha$ （当然不是效果的强度）。对于这样的“连续主义者”，“几乎有效”是描述具有中等p值的结果的明智方式。当人们将这两种哲学混合在一起时，就会出现问题。（顺便说一句-人们经常假设这些图清晰地映射到Neyman / Pearson和Fisher上，但事实并非如此；因此，我承认他们的说法很笨拙）。有关此主题的博客文章，请访问此处：https：//scientistseessquirrel.wordpress.com/2015/11/16/is-nearly-significant-ridiculous/

— 史蒂芬·赫德
source

1

从技术的角度来看，我倾向于认为在统计上有意义的事情是不正确的。设置公差等级后，将设置显着性统计检验。您必须回到抽样分布的概念。如果您的容忍度为0.05，而p值恰好为0.053，则所使用的样本偶然产生了该统计量。您很可能会得到另一个可能不会产生相同结果的样本-我相信发生的可能性是基于所设置的公差水平，而不是样本统计量。请记住，您是根据总体参数测试样本，样本具有自己的样本分布。因此，我认为，无论是在统计上是有意义的，还是在统计学上都不是。

— 克里斯·科瓦兰巴
source

0

$[0,1]$ $\mathcal{H}_0$ $p > \alpha$

$\mathcal{H}_1$

参见例如维基百科。

— 抓紧
source

我不太了解你。是的，在任何连续分布中，获得精确值0.051的可能性等于获得精确值1的可能性-它为零。但是假设检验检验了看到至少与观察到的值一样极端的值的可能性。您总会发现p值至少等于1的极值，但是看到p值极至0.051的可能性要小得多。是什么使这种区别“毫无意义”？

— 核王

在零值下，观察区间[0.05,0.051]中的p值的可能性与观察区间[0.999,1]中的p值的可能性一样大。观察一个更接近阈值的p值并不能像观察排斥区域以外的任何其他p值那样，更多地证明0反对。

— 斯诺（Snaut）

某些调用ap值为0.05有意义，另一些使用0.01或0.1作为阈值。因此，在进行相同分析并发现p值为0.03的3名研究人员中，有2名可能将其称为有意义，而有1名则可能没有意义。如果他们都找到0.91的p值，没有人会认为它是显着的。P值接近阈值意味着更多的人会认为有足够的证据拒绝零值。我不明白为什么在支持H1方面p = 0.051和p = 1应该是难以区分的-有些人会合理地以p = 0.051支持H1。p = 1时没有人会这样做。

— 核王