人们通常使用程序来获取p值,但有时出于某种原因(可能出于某种原因)可能需要从一组表中获取临界值。
给定具有有限数量的显着性水平和有限数量的自由度的统计表,我如何在其他显着性水平或自由度下获得近似临界值(例如使用,卡方或表) ?
也就是说,如何在表中的值之间找到“值”?
人们通常使用程序来获取p值,但有时出于某种原因(可能出于某种原因)可能需要从一组表中获取临界值。
给定具有有限数量的显着性水平和有限数量的自由度的统计表,我如何在其他显着性水平或自由度下获得近似临界值(例如使用,卡方或表) ?
也就是说,如何在表中的值之间找到“值”?
Answers:
这个答案分为两个主要部分:首先,使用线性插值,其次,使用变换以获得更准确的插值。当可用表有限时,此处讨论的方法适用于手动计算,但是如果要实现计算机例程以生成p值,则应该使用更好的方法(如果手动完成则很繁琐)。
如果您知道z检验的10%(加尾)临界值是1.28,而20%临界值是0.84,则粗略猜测15%临界值将介于-(1.28 + 0.84)之间/ 2 = 1.06(实际值为1.0364),可以在该值与10%的值(1.28 + 1.06)的一半之间猜到12.5%的值(实际值为1.15+)。这正是线性插值的作用-而不是“中间距离”,它看起来是两个值之间的任意距离。
让我们看一下简单线性插值的情况。
因此,我们有一些函数(例如),我们认为它接近我们想要近似的值是线性的,并且我们想要的值的两侧都有函数的值,例如,像这样:
我们知道y的两个值相隔12(20-8)。看看x值(我们想要一个近似y值的值)如何以8:4的比率(16-8和20-16)将12的差异除以?也就是说,它是第一个x值到最后一个x值的距离的2/3 。如果关系是线性的,则y值的相应范围将具有相同的比率。
所以应该与16−8大致相同。
那是
重新排列:
统计表的示例:如果我们有一个t表,其中12df的临界值如下:
我们希望t的临界值为12 df,且两尾alpha为0.025。也就是说,我们在该表的0.02行和0.05行之间进行插值:
“ ”处的值是我们希望使用线性插值法近似的t 0.025值。(通过吨0.025我实际上指的是1 - 0.025 / 2点的逆CDF的吨12分布。)
和以前一样,将来自间隔0.02至0.05的比率(0.025 - 0.02 )至(0.05 - 0.025 )(即1 :5)和未知吨 -值应除以吨范围2.68到2.18以相同的比例; 等同地,0.025发生(0.025 - 0.02 )/(0.05 - 0.02 )= 1 /个的沿道路 X -range,所以未知吨 -值应该发生 1 / 6个的沿道路吨 -range。
即或等效
实际答案是 ...并不是特别接近,因为我们要近似的函数在该范围内不是非常接近线性(接近α = 0.5)。
我们可以用其他函数形式代替线性插值;实际上,我们转换为线性插值效果更好的比例。在这种情况下,在表尾,许多列表式临界值与有效水平的对几乎成线性关系。在取log s之后,我们像以前一样简单地应用线性插值。让我们在上面的示例中尝试一下:
现在
或同等
引用的数字正确。这是因为-当我们对数刻度进行对数转换时,该关系几乎是线性的:
确实,在视觉上,曲线(灰色)整齐地位于直线(蓝色)的顶部。
(图与比较这里)
这是一张卡方桌
Probability less than the critical value
df 0.90 0.95 0.975 0.99 0.999
______ __________________________________________________
40 51.805 55.758 59.342 63.691 73.402
50 63.167 67.505 71.420 76.154 86.661
60 74.397 79.082 83.298 88.379 99.607
70 85.527 90.531 95.023 100.425 112.317
想象一下,我们希望找到57个自由度的5%临界值(95%百分数)。
仔细观察,我们发现表中5%的临界值在这里几乎呈线性增长:
(绿线连接了50和60 df的值;您可以看到它触摸了40和70的点)
因此线性插值会做得很好。但是我们当然没有时间画图了。如何决定何时使用线性插值以及何时尝试更复杂的方法?
实际值为75.62375,因此我们确实获得了3个数字的准确性,在第四个数字中仅差了1个。
通过使用有限差分的方法(尤其是通过划分的差分),仍可以实现更精确的插值,但这对于大多数假设检验问题而言可能是过大的了。
如果您的自由度超出了表格的范围,则此问题将讨论该问题。