我如何找到统计表中未给出的值?


19

人们通常使用程序来获取p值,但有时出于某种原因(可能出于某种原因)可能需要从一组表中获取临界值。

给定具有有限数量的显着性水平和有限数量的自由度的统计表,我如何在其他显着性水平或自由度下获得近似临界值(例如使用,卡方或表) ?ŤF

也就是说,如何在表中的值之间找到“值”?

Answers:


26

这个答案分为两个主要部分:首先,使用线性插值,其次,使用变换以获得更准确的插值。当可用表有限时,此处讨论的方法适用于手动计算,但是如果要实现计算机例程以生成p值,则应该使用更好的方法(如果手动完成则很繁琐)。

如果您知道z检验的10%(加尾)临界值是1.28,而20%临界值是0.84,则粗略猜测15%临界值将介于-(1.28 + 0.84)之间/ 2 = 1.06(实际值为1.0364),可以在该值与10%的值(1.28 + 1.06)的一半之间猜到12.5%的值(实际值为1.15+)。这正是线性插值的作用-而不是“中间距离”,它看起来是两个值之间的任意距离。

单变量线性插值

让我们看一下简单线性插值的情况。

因此,我们有一些函数(例如X),我们认为它接近我们想要近似的值是线性的,并且我们想要的值的两侧都有函数的值,例如,像这样:

Xÿ89.316ÿ162015.6

我们知道y的两个值相隔12(20-8)。看看x值(我们想要一个近似y值的值)如何以8:4的比率(16-8和20-16)将12的差异除以?也就是说,它是第一个x值到最后一个x值的距离的2/3 。如果关系是线性的,则y值的相应范围将具有相同的比率。XÿXÿX

线性插值

所以应该与168大致相同ÿ16-9.315.6-9.316-820-8

那是ÿ16-9.315.6-9.316-820-8

重新排列:

ÿ169.3+15.6-9.316-820-8=13.5

统计表的示例:如果我们有一个t表,其中12df的临界值如下:

2-尾巴αŤ0.013.050.022.680.052.180.101.78

我们希望t的临界值为12 df,且两尾alpha为0.025。也就是说,我们在该表的0.02行和0.05行之间进行插值:

αŤ0.022.680.0250.052.18

”处的值是我们希望使用线性插值法近似的t 0.025值。(通过0.025我实际上指的是1 - 0.025 / 2点的逆CDF的12分布。)Ť0.025Ť0.0251个-0.025/2Ť12

和以前一样,将来自间隔0.020.05的比率0.025 - 0.02 0.05 - 0.025 (即1 5)和未知 -值应除以范围2.682.18以相同的比例; 等同地,0.025发生0.025 - 0.02 /0.05 - 0.02 = 1 /0.0250.020.050.025-0.020.05-0.0251个5ŤŤ2.682.180.025个的沿道路 X -range,所以未知 -值应该发生 1 / 6个的沿道路 -range。0.025-0.02/0.05-0.02=1个/6XŤ1/6t

或等效t0.0252.682.182.680.0250.020.050.02

t0.0252.68+(2.182.68)0.0250.020.050.02=2.680.5162.60

实际答案是 ...并不是特别接近,因为我们要近似的函数在该范围内不是非常接近线性(接近α = 0.5)。2.56α=0.5

t表中临界值的线性插值

通过变换更好地近似

我们可以用其他函数形式代替线性插值;实际上,我们转换为线性插值效果更好的比例。在这种情况下,在表尾,许多列表式临界值与有效水平的对几乎成线性关系。在取log s之后,我们像以前一样简单地应用线性插值。让我们在上面的示例中尝试一下:loglog

αlog(α)t0.023.9122.680.0253.689t0.0250.052.9962.18

现在

Ť0.025-2.682.18-2.68日志0.025-日志0.02日志0.05-日志0.02=-3.689--3.912-2.996--3.912

或同等

Ť0.0252.68+2.18-2.68-3.689--3.912-2.996--3.912=2.68-0.50.2432.56

引用的数字正确。这是因为-当我们对数刻度进行对数转换时,该关系几乎是线性的:

对数阿尔法中的线性插值
确实,在视觉上,曲线(灰色)整齐地位于直线(蓝色)的顶部。

Logitα=日志α1个-α=日志1个1个-α-1个α日志

跨不同自由度的插值

ŤFν1个/ν

120/ν120/ν

F4νν=601201个/νν=80F

F480.95F460.95+1个/80-1个/601个/120-1个/60F4120.95-F460.95

逆插值

(图与比较这里


这是一张卡方桌

            Probability less than the critical value
 df           0.90      0.95     0.975      0.99     0.999
______   __________________________________________________

 40         51.805    55.758    59.342    63.691    73.402
 50         63.167    67.505    71.420    76.154    86.661
 60         74.397    79.082    83.298    88.379    99.607
 70         85.527    90.531    95.023   100.425   112.317

想象一下,我们希望找到57个自由度的5%临界值(95%百分数)。

仔细观察,我们发现表中5%的临界值在这里几乎呈线性增长:

在此处输入图片说明

(绿线连接了50和60 df的值;您可以看到它触摸了40和70的点)

因此线性插值会做得很好。但是我们当然没有时间画图了。如何决定何时使用线性插值以及何时尝试更复杂的方法?

X500.95+X700.95/2X600.95

67.505+90.531/2=79.018

X-67.50579.082-67.50557-5060-50

X67.505+79.082-67.50557-5060-5075.61

实际值为75.62375,因此我们确实获得了3个数字的准确性,在第四个数字中仅差了1个。

通过使用有限差分的方法(尤其是通过划分的差分),仍可以实现更精确的插值,但这对于大多数假设检验问题而言可能是过大的了。

如果您的自由度超出了表格的范围,则此问题将讨论该问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.