分类名义变量之间的类别之间的相关性


9

我有一个包含两个分类名义变量的数据集(均包含5个分类)。我想知道是否(以及如何)能够从这两个变量中识别类别之间的潜在关联。

换句话说,例如类别的结果 一世变量1中的变量与变量2中的特定类别有很强的相关性。由于我有两个具有5个类别的变量,因此所有类别的总相关性分析将归结为25个结果(至少以我希望的方式/希望它能正常工作)。Ĵ

我试图将问题表达为具体的问题:

问题1:假设我将分类变量转换为每个值(类别)5个不同的虚拟变量。我也为第二个变量运行相同的过程。然后,我想确定虚拟1.i和2.i之间的相关性(例如)。对我来说,通过普通的相关系数过程执行此过程在统计上是否正确?通过此过程得出的相关系数是否可以正确了解两个虚拟变量之间的相关性?

问题2:如果问题一中描述的过程是有效过程,是否可以同时对所有2个(或更多)分类名义变量类别进行分析?

我正在使用的程序是SPSS(20)。


@Michael Mayer提出的观点适用于修订后的问题。
Nick Cox

1
如果两个变量不相关,则在5x5频率矩阵的每个像元中将有1/25。因此,χ2 统计 XÿØ-Ë2Ë,在哪里 Ë=XÿØXÿ/25ØXÿ-对于两个变量的5个值中的任何一个,观察到的频率应该是合适的。
Aksakal 2014年

3
@Aksakal“不相关”在这里是错误的术语;变量是名义变量,因此未定义相关性。我认为您的意思是独立,但是独立也不意味着频率相等。独立下的小区频率取决于边际频率。
尼克·考克斯

Answers:


6

类别之间的“焦点”关联 一世 一个名义变量和类别 Ĵ另一种是由频率表示残留在细胞一世Ĵ, 据我们所知。如果残差为0,则表示频率是两个标称变量未关联时的预期频率。残差越大,由于组合的代表度过高,关联性就越大一世Ĵ在样本中。大的负残差等效地表示组合不足。因此,剩余频率就是您想要的。

但是,原始残差不适合使用,因为它们取决于边际总数,总体总数和表大小:该值未以任何方式标准化。但是SPSS可以向您显示标准化残差,也称为Pearson残差。圣残差是残差除以其标准偏差的估计值(等于期望值的平方根)。表格的圣残差均值为0和圣。开发。1; 因此,圣。残差用作z值,类似于定量变量分布中的z值(实际上,它是泊松分布中的z)。在具有相同大小和相同总数的不同表之间,St。残差是可比较的ñ。列联表的卡方统计量是st的平方和。里面的残渣。比较圣。表中和同体积表中的残差有助于确定对卡方统计量贡献最大的特定像元。

SPSS还显示调整后的残差(=调整后的标准残差)。调整 残差是残差除以其标准误的估计值。有趣的 残差等于ñ[R一世Ĵ,在哪里 ñ 是总计 [R一世Ĵ是之间的皮尔逊相关对应于类别的虚拟变量一世Ĵ两个名义变量中的一个。这个[R正是您要计算的内容。调整 残差与之直接相关。

不像圣 剩余的 残余也被标准化为表格中边际分布的形状(不仅考虑了该单元格中的预期频率,而且还考虑了其​​行和列外的单元格中的预期频率),因此您可以直接看到强度的类别之间的联系一世Ĵ- 不用担心他们的边际总数相对于其他类别而言是大还是小。调整 残差也像z得分,但现在它就像正态(不是泊松)分布的z。如果调整 残差高于2或低于-2,您可能会得出结论,该p<0.05水平显着1个。调整 残差仍然受ñ; [R不是,但是您可以获得所有 [R来自adj。按照上面的公式计算残差,而无需花费时间来生成伪变量。2

关于第二个问题,关于三通类别关系-这可能是一般对数线性分析的一部分,该分析还显示残差。但是,三元细胞残差的实际应用是适度的:3(+)方式的关联度量不容易标准化,也不容易解释。


1个在圣 法线1.962 是2.5%尾巴的切点,因此如果您将两根尾巴都视为2面替代假设,则为5%。

2 因此,调整后的单元格中残差的意义 一世Ĵ 等于 [R一世Ĵ。此外,如果表中只有2列,并且您要对之间的比例执行z检验一世1个一世2,行的列比例 一世,则该测试的p值等于两个(任意)调整的意义。行中的残差一世 2列表格


1

从与SPSS统计二元的文档住直接带到这里

卡方是一种有用的技术,因为您可以使用它来查看两个序数变量,两个名义变量之间或序数和名义变量之间是否存在关系。您看一下渐近线。Sig列,如果小于.05,则两个变量之间的关系具有统计意义。


4
可以,但是三声抱怨,一声大伤,两声非常轻微。两个序数变量上的卡方忽略了排序。这不是 SPSS文件,而是由别人浅谈,和他们过度简化,如刚才提到的。他们没有复制“ Asymp”。正确(上一页示例)。对于OP而言,更大的问题是关联在这里是错误的词:就关联的度量,测试和(最重要的)建模而言,“关联”是关键字。
尼克·考克斯

1
谢谢,我编辑了the SPSS document一下,不是要给它加上任何过分的真实性。
朱巴卜
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.