我有一个带有两个列的手机客户信息数据集。第一列包含某个帐户所属的特定类别(A,B或C),第二列包含该帐户是否已取消的二进制值。例如
A | cancelled
C | active
B | active
A | cancelled
我想要做的是提出某种假设检验,以测试活动账户与已取消账户的类型A,B和C的账户比率是否不同-零假设是它们相同。因此,这就像是对比例的假设检验,只是我不知道如何对3个值进行此操作
我有一个带有两个列的手机客户信息数据集。第一列包含某个帐户所属的特定类别(A,B或C),第二列包含该帐户是否已取消的二进制值。例如
A | cancelled
C | active
B | active
A | cancelled
我想要做的是提出某种假设检验,以测试活动账户与已取消账户的类型A,B和C的账户比率是否不同-零假设是它们相同。因此,这就像是对比例的假设检验,只是我不知道如何对3个值进行此操作
Answers:
我将总体上以我的答案为基础,并插入有关您的问题如何适合测试框架的注释。通常,我们可以使用检验来检验比例的相等性,其中典型的虚无假设为:
即,所有比例彼此相等。现在,根据您的情况,您的零假设如下:
现在,为了执行测试,我们需要计算以下测试统计量:test-statistic的值为
哪里
在您的情况下,因为我们可以将此问题视为下表:
现在,一旦有了检验统计量,就有两种选择可以继续完成假设检验。
选项1)我们可以在原假设下将测试静态与适当的临界值进行比较。也就是说,如果为true,则来自具有行和列的列联表的统计信息应具有分布,其度为自由。在计算了关键值如果我们有那么我们将拒绝原假设。显然,如果那么我们将无法拒绝原假设。
以图形方式(所有数字组成),这是以下内容:
从图中可以看出,如果我们的检验统计量对应于蓝色检验统计量,那么我们将无法拒绝原假设,因为该检验统计量不在关键区域内(即,)。或者,绿色检验统计量确实落在关键区域内,因此如果我们计算绿色检验统计量,我们将拒绝原假设。
在您的示例中,您的自由度等于
选项2)我们可以在原假设下计算与检验统计量相关的p值,如果该p值小于某个指定的 -level,则可以拒绝原假设。如果p值大于 -level,则我们无法拒绝原假设。请注意,p值是分布大于检验统计量的概率。
图形上我们有
其中,p值计算为大于测试统计量的区域(示例中的蓝色阴影区域)。
因此,如果则无法拒绝原假设,否则,
如果拒绝原假设