箱形图刻痕与Tukey-Kramer间隔


10

来自“ R”中箱形图的“缺口” 帮助文档或原始文本)给出以下内容:

如果两个地块的凹口不重叠,这就是两个中间值不同的“有力证据”(Chambers等,1983,第62页)。有关使用的计算,请参见boxplot.stats。

并且“ boxplot.stats ”给出以下内容:

槽口(如果需要)扩展到+/- 1.58 IQR / sqrt(n)。这似乎是基于与McGill等人(1978年,第16页)中Chambers等人(1983,第62页)中1.57公式相同的计算。它们基于中位数的渐近正态性和所比较的两个中位数的大致相等的样本大小,并且据说对样本的基本分布不敏感。这个想法似乎是为两个中位数的差异给出大约95%的置信区间。

现在,我更加熟悉使用Tukey-Kramer测试的JMP版本比较列的平均值。 JMP文档提供了以下内容:

显示针对所有均值之间差异的测试。这是Tukey或Tukey-Kramer HSD(诚实的显着差异)测试。(Tukey 1953,Kramer 1956)。如果样本大小相同,则此测试为精确的alpha级测试;如果样本大小不同,则为保守测试(Hayter 1984)。

问题:两种方法之间的联系的本质是什么?有没有办法将一个变成另一个?

看起来有人正在寻找中位数的大约95%CI,然后确定是否存在重叠;另一个是“精确阿尔法测试”(我的样本大小相同),用于确定两组样本的中位数是否在彼此的合理范围内。

我参考了软件包,但是我对逻辑背后的数学感兴趣。

Answers:


11

就带槽的箱线图而言,问题中提到的McGill等人[1]参考包含了相当完整的细节(不是我在这里所说的所有内容都在此处明确提及,但是足够详细,可以弄清楚)。

该间隔是一个稳定的但基于高斯的间隔

本文引用了以下刻痕间隔(其中是样本中位数,是样本四分位数范围):MR

M±1.7×1.25R/(1.35N)

哪里:

  • 1.35是一个渐近转换因子,可以将IQR转换为估计值-具体来说,它大约是标准法线的0.75分位数和0.25分位数之间的差;总体四分位数相距约1.35,因此左右的值应该是(更准确地说,约为1.349)的一致(渐近无偏)估计。σσR/1.35σ

  • 1.25之所以加入是因为我们要处理的是中位数而不是平均值的渐近标准误差。具体来说,样本中位数的渐近方差为,其中是中位数的密度高度。对于正态分布,为,因此样本中位数的渐近标准误差为。14nf02f0f012πσ0.3989σ12Nf0=π/2σ/N1.253σ/N

    正如StasK 在这里提到的那样,越小,其含义就越不确定(用第一个地方的正态分布的合理性代替他的第三个理由)。N

    结合以上两个,我们得到中值约的标准误差的渐近估计 。McGill等人将此归功于Kendall和Stuart(我不记得特定的公式是否在那里出现过,但是组成部分会出现)。1.25R/(1.35N)

  • 因此,剩下要讨论的是1.7的因数。

    请注意,如果我们将一个样本与固定值(例如假设的中位数)进行比较,我们将使用1.96进行5%的测试;因此,如果我们有两个非常不同的标准误差(一个相对较大,一个很小),那将是要使用的因素(因为如果null为真,则差异几乎完全是由于一个较大的标准误差所致)标准错误,并且小错误-大约-可以有效地解决)。

    在另一方面,如果这两个标准的错误是一样的,1.96是太大了一个因素,因为这两个缺口的套进入它-为两套缺口失败重叠,我们正在把每个之一。这将使渐近线的正确系数为。1.96/21.386

    在两者之间的某个位置,我们将1.7作为粗略的折衷系数。McGill等人将其描述为“根据经验选择”。它确实非常接近于假设特定的方差比率,所以我的猜测(仅此而已)是,经验选择(大概基于某种模拟)是在一组方差的舍入值比率之间(例如1:1,2:1,3:1,...),然后将比率中的“最佳折衷”插入到四舍五入到两个数字。至少这是最终接近1.7的合理方法。rr:11.96/1+1/r

将它们全部(1.35、1.25和1.7)放在一起可以得到1.57。一些来源通过更精确地计算1.35或1.25(或两者)获得1.58,但作为1.386和1.96之间的折衷,1.7甚至不能精确到两个有效数字(这只是一个妥协值),因此,附加精度为毫无意义(他们可能还只是将整个内容四舍五入为1.6并完成了操作)。

请注意,这里没有任何地方可以进行多个比较的调整。


Tukey-Kramer HSD的差异的置信度极限有一些明显的类比:

y¯iy¯j±qα;k;Nk2σ^ε1ni+1nj

但请注意

  • 这是一个合并的时间间隔,不是两个单独的差异贡献(因此我们在有一个术语,而不是两个分别贡献和,我们假设变量为常数(因此,我们不处理的折衷方案-当我们可能有非常不同的方差-而不是渐近情况下)c.1ni+1njk.1nik.1nj1.961.96/2

  • 它是基于平均值而不是中位数(因此没有1.35)

  • 它基于,而则基于均值的最大差异(因此,该部分中甚至没有 1.96的部分,甚至没有被除以的部分)。相比之下,在比较多个箱形图时,没有考虑将凹口基于中位数的最大差异,而是完全成对的。q2

因此,尽管组件形式背后的一些想法有些相似,但实际上它们的工作方式却大不相同。

[1] McGill,R.,Tukey,JW和Larsen,WA(1978)箱形图的变化。美国统计学家32,12-16。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.