测试正态分布随机变量比率的显着差异


9

分析变量的比率有关,以及如何参数化两个正态分布变量的比率或一个变量的倒数?

假设我有来自四个不同连续随机分布的多个样本,我们可以假设所有这些样本都是大致正态的。在我的情况下,这些对应于两个不同文件系统(例如ext4和XFS)的一些性能指标,无论有没有加密。该指标可能是,例如,每秒创建的文件数,或某些文件操作的平均延迟。我们可以假设从这些分布中抽取的所有样本将始终严格为正。我们称这些分布Perffstype,encryption 哪里 fstype{xfs,ext4}encryption{crypto,nocrypto}

现在,我的假设是,加密会使一个文件系统比另一个文件系统减慢的速度更大。对假设是否有一些简单的检验E[Perfxfs,crypto]E[Perfxfs,nocrypto]<E[Perfext4,crypto]E[Perfext4,nocrypto]


一些文本似乎已从该问题的中间删除。您认为可以恢复吗?
ub

我认为“因此,”错误地留在了那里,至少我无法想到我想要添加的内容。也许这是我最后移至第二段的内容。
Sami Liedes'2

您可以使用对数链接函数将广义线性模型拟合为正态分布。
一站式服务,2012年

1
“文件数”和“平均延迟”不能正态分布(开始时都不为负)。两者都可能有些偏右。文件数是离散计数。
Glen_b-恢复莫妮卡

Answers:


12

StasK较好答案的一种替代方法是使用置换测试。第一步是定义一个测试统计量T, 也许:

Ť=PË[RF^ËXŤ4C[RÿpŤØPË[RF^ËXŤ4ñØC[RÿpŤØ-PË[RF^XFsC[RÿpŤØPË[RF^XFsñØC[RÿpŤØ

哪里 PË[RF^ËXŤ4C[RÿpŤØ 可能是观测值的样本均值 性能ËXŤ4C[RÿpŤØ等(这符合您对假设的定义,即期望的比率,而不是期望的比率的替代可能性-可能是您真正想要的替代。)第二步是随机排列标签 ËXŤ4 XFs 在数据中多次说 一世=1个10000,然后计算 Ť一世对于每个排列。最后一步是比较您的原始Ť 与观察 Ť一世; 排列估计的p值将是Ť一世Ť

置换测试使您摆脱了对渐近性的依赖,但是当然取决于您的样本量(当然也包括数据),我偶尔也会使用的增量法可能效果很好。


这也是一个很好的建议!
StasK'2

请注意,两个居中法线变量的比率为柯西变量。
西安

1
@西安:很明显我们可以假设他们在这里独立吗?如您所知,要保持此结果是必要的(并有机会发挥作用)。
主教

@cardinal:是的,确实,他们将必须独立!
西安

1
作为一个非常卑鄙的技术观点-当您的测试统计数据是关键数据/不涉及未知参数/方差稳定的...至少在空值下,排列的效果会更好。使用比例,您可以进行反正弦变换。对于严格为正的连续数量,我可能会从日志开始。但这确实锦上添花。
StasK

4

您可以使用delta-method计算比率的(渐近)标准误差。如果您有两个随机变量Xÿ 这样

n(X¯μXY¯μY)N((00),(σXXσXYσXYσYY))
分布(如果您具有独立的数据,则会是这种情况,但在不同的计算机上运行测试时,在更普遍的群集数据中也是如此) r=Y¯/X¯ 与人口类似 ro=μY/μX, 我们有
n(rr0)N(0,μY2μX4σXX2μYμX3σXY+1μX2σYY)
如果 XY 是独立的,在您的情况下可能会合理假设,因此该表达式通过删除 σXY,所以我们得出变异系数的平方:
CV2[r]=CV2[X¯]+CV2[Y¯]
另一个优点是样本大小可能不同。此外,如果您的RHS和LHS是独立的,则可以形成z的检验统计 H0: 通过将比率的差异除以从这些CV获得的相应标准误差,可以得出相同的结果。

我希望您可以从那里拿走它,并进行其余的信封计算以获取最终公式。

注意结果是渐近的,比率 r 是...的有偏估计 r0在小样本中。偏差的顺序为O(1/n),并且与数量级为的采样变异性相比,渐近消失 O(1/n)


谢谢您的出色回答!我认为我会选择jbowban的置换测试进行学习,因为我认为我更了解它及其局限性,但是delta方法肯定看起来像我需要研究和弄清楚的东西。
萨米·里德斯


Xavier,我认为@usεr11852提供了一个很好的答案。我不会再添加任何内容。
StasK

@StasK-您在回答中指出的条件在什么条件下有效?通过先前的假设和Delta方法是否可以保证比率统计的收敛?
Xavier Bourret Sicotte,

这是渐近式的……永远无法保证,并且错误边界很难甚至不可能得到。所有增量法(或任何其他弱收敛结果)都表明,随着样本数量的增加,实际有限样本分布与渐近分布之间的差异将变小。这可能意味着,随着样本数量从1000增加到10000,cdfs之间的垂直差将从0.2降低到0.1,而后者在实际应用中仍然是不可接受的。或可能意味着差异从0.01到0.001。
StasK

0

正态变量的比率是柯西分布。知道这一点,您只需执行贝叶斯因子测试即可。

这是一个很自然的想法。我现在不确定数据生成机制。您是否在同一台PC上安装了不同的文件系统,然后针对这两种情况进行了基准测试,以便我们可以采用分层数据结构?

另外,我不确定看比例是否真的有意义。

然后,您编写了期望值的比率,而我想到了比率的期望值。我想我需要更多有关数据生成的信息,然后再继续。


1
如果(a)它们是独立的并且(b)具有相同的方差,则法线的比率仅是柯西。
主教

我猜西安也有同样的想法……
joint_p 2012年

1
目前尚不清楚(至少对我而言)是否存在任何这样的独立性结构,或者它们的均值为零。也许,如果您可以扩展自己的答案,则将有助于使您所建议的方法更加清晰。:)
主教

1
@cardinal-我认为这是独立法线的比率,平均值为零,柯西系数为零,中位数和标度参数等于法线标准偏差的比率。如果它们的均值非零,则不是柯西。
概率

@问题:(+1)你是对的!感谢您抓住这一点。我在第一条评论中删除了“标准”和“零均值”(后者确实使它成为了我的第二条评论)。
主教

0

在无法执行置换的情况下(例如,当样本量产生数百万种可能性时),另一种解决方案是蒙特卡洛重采样。

零假设是,两者之间的速度没有差异 ext4xfs,对于 nocryptocrypto。因此,平均比率ext4xfs 在所有 nocrypto 样本与 crypto

H0:Tobserved=xnocryptonnocryptoxcryptoncrypto=0

哪里 x=ext4xfs

n=samplesize

如果 H0 是真的,随机选择以下比率的结果 nocrypto 要么 crypto 也会导致 Tobserved=0。一个可以计算:

Tresampling=x1random+xnrandomnnocryptox1random+xnrandomncrypto

并执行10,000次重新采样。由此产生的分布 Tresampling 值是 H0。和...之间的不同nocryptocrypto 如果计算得出 Tobserved 值超出例如95%的范围 (p<0.05)Tresampling 价值观。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.