对3个样本的比例相等性进行假设检验


9

我有一个带有两个列的手机客户信息数据集。第一列包含某个帐户所属的特定类别(A,B或C),第二列包含该帐户是否已取消的二进制值。例如

A | cancelled
C | active
B | active
A | cancelled

我想要做的是提出某种假设检验,以测试活动账户与已取消账户的类型A,B和C的账户比率是否不同-零假设是它们相同。因此,这就像是对比例的假设检验,只是我不知道如何对3个值进行此操作


6
您可以使用检验来测试三个组之间的比例是否相等。χ2

我还认为我可以进行三个假设检验A与B,B与C以及A与C,以查看它们是否不同
user1893354 2013年

5
您可以,但是请注意,然后您必须纠正多重比较的问题。

谢谢您的回答。我很好奇,多重比较问题意味着什么?或者更具体地说,为什么这三个假设检验方法是不利的。谢谢!
user1893354

3
您是使用三个假设检验的两个问题。首先,它们是相互依赖的,因为每一对都重用了一些数据。其次,如果它们实际上是独立的,那么即使当null为真时,至少其中之一也会很重要的机会-也就是说,错误肯定错误的可能性几乎是期望错误的三倍。阳性率。第二个问题表明需要调整测试,但是第一个问题表明找到适当的调整可能会出现问题。该的方法避免了这些问题。χ2
ub

Answers:


13

我将总体上以我的答案为基础,并插入有关您的问题如何适合测试框架的注释。通常,我们可以使用检验来检验比例的相等性,其中典型的虚无假设为:χ2H0

H0:p1=p2=...=pk

即,所有比例彼此相等。现在,根据您的情况,您的零假设如下:

H0:p1=p2=p3
,备用假设为
HA: at leat one pi is different for i=1,2,3

现在,为了执行测试,我们需要计算以下测试统计量:test-statistic的值为χ2

χ2=i=1n(OiEi)2Ei

哪里

  • χ2 =皮尔森的累积检验统计量,渐近地接近分布χ2
  • Oi =观测频率
  • Ei =预期(理论)频率,由原假设断言
  • n =表中的单元格数

在您的情况下,因为我们可以将此问题视为下表: n=6在此处输入图片说明

现在,一旦有了检验统计量,就有两种选择可以继续完成假设检验。

选项1)我们可以在原假设下将测试静态与适当的临界值进行比较。也就是说,如果为true,则来自具有行和列的列联表的统计信息应具有分布,其度为自由。在计算了关键值如果我们有那么我们将拒绝原假设。显然,如果那么我们将无法拒绝原假设。 χ2H0χ2RCχ2(R1)×(C1)χχ2>χχ2χ

以图形方式(所有数字组成),这是以下内容: 在此处输入图片说明

从图中可以看出,如果我们的检验统计量对应于蓝色检验统计量,那么我们将无法拒绝原假设,因为该检验统计量不在关键区域内(即,)。或者,绿色检验统计量确实落在关键区域内,因此如果我们计算绿色检验统计量,我们将拒绝原假设。χ2χ2<χ

在您的示例中,您的自由度等于

df=(R1)×(C1)=(21)×(31)=1×2=2

选项2)我们可以在原假设下计算与检验统计量相关的p值,如果该p值小于某个指定的 -level,则可以拒绝原假设。如果p值大于 -level,则我们无法拒绝原假设。请注意,p值是分布大于检验统计量的概率。ααχ(R1)×(C1)2

图形上我们有 在此处输入图片说明

其中,p值计算为大于测试统计量的区域(示例中的蓝色阴影区域)。

因此,如果则无法拒绝原假设,否则,α>p-valueH0

如果拒绝原假设αp-valueH0

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.