当其中一个变量是分类变量时,为什么相关性不是很有用?


14

这只是一个小小的检查,请帮助我看看我是否误解了这个概念,以及以什么方式。

我对相关性有一个功能上的理解,但我感到有些困惑,要真正自信地解释该功能性理解背后的原理。

据我了解,统计相关性(相对于该术语的更一般用法)是一种理解两个连续变量以及它们以相似的方式趋向或不趋于上升或下降的方式。

您无法对一个连续的和一个分类变量进行相关性的原因是,由于无法计算两者之间的协方差,因此无法计算 两者之间的协方差,因为按定义,分类变量不能产生均值,因此甚至不能输入第一个统计分析的步骤。

那正确吗?


2
这是我教过的一类课堂演讲的幻灯片,主要讲授关于人口(而非样本)相关性和协方差的问题people.virginia.edu/~trb5me/3120_slides/5/5.2/5.2.pdf
Taylor

3
原因很简单,假设您问人们“您最喜欢的颜色是什么?” 并回答“红色”,“绿色”,“蓝色”,“橙色”,“黄色”,...,在数据集中编码为1、2、3,...的内容。具有工作满意度的变量,其值为0.21。这是什么意思?您能提供任何有意义的解释吗?
蒂姆

2
密切相关(也许甚至重复吗?)- 名义变量(IV)和连续变量(DV)之间的相关性
Silverfish

@Taylor:当两个变量都是连续/数字变量,但其中一个变量是随机变量而另一个变量不是,例如,学习小时数与GPA相比,我们该怎么用?
MSIS

Answers:


16

相关性是标准化的协方差,即协方差xy通过的标准偏差除以xy。让我说明一下。

松散地说,统计可以概括为适合数据的模型,并可以评估模型描述这些数据点的程度(结果=模型+错误)。一种方法是从模型计算偏差或残差(res)的总和:

res=(xix¯)

许多统计计算都基于此,包括。相关系数(见下文)。

这是制作的示例数据集R(残差表示为红线,并在其旁边添加其值):

X <- c(8,9,10,13,15)  
Y <- c(5,4,4,6,8)

在此处输入图片说明

通过从模型中在每个数据点单独地寻找并减去其值(例如平均值;在这种情况下X=11Y=5.4),人们可以评估的模型的准确度。可以说该模型高/低估了实际价值。但是,对模型中的所有偏差进行求和时,总误差趋于为零,这两个值相互抵消,因为存在正值(模型低估了特定数据点)和负值(模型高估了特定数据)点)。为了解决这个问题,将偏差和求平方,现在称为平方和(SS):

SS=(xix¯)(xix¯)=(xix¯)2

n1s2

s2=SSn1=(xix¯)(xix¯)n1=(xix¯)2n1

为了方便起见,可以采用样本方差的平方根,即样本标准偏差:

s=s2=SSn1=(xix¯)2n1

现在,协方差评估两个变量是否相互关联。正值表示当一个变量偏离均值时,另一个变量沿相同方向偏离。

covx,y=(xix¯)(yiy¯)n1

r

r=covx,ysxsy=(x1x¯)(yiy¯)(n1)sxsy

r=0.87XY

enter image description here

长话短说,是的,您的感觉是对的,但我希望我的回答可以提供一些背景信息。


1
这非常有帮助-在试图加深我自己的理解时,我认为如果我不能向没有统计学背景的人充分解释它,我会不如我所想的那样理解。
Toof

8

您是(几乎)的权利。协方差(以及相关性)也只能在数值变量之间计算。这包括连续变量,也包括离散数值变量。

仅在给定变量有用的数字代码的情况下,分类变量才可以用于计算相关性,但这不太可能获得实际的优势-也许对某些两级分类变量可能有用,但是其他工具可能更适合。


佩尔森积矩相关系数表示两个变量之间线性关系的程度。像Spearman的rho或Kendall的tau这样的非参数量度,可以描述X和Y共同增加或减少的趋势(在某种程度上就像单调关系一样,不一定是线性的。)
Michael R. Chernick

@Pere:当我们有两个连续变量但其中只有一个是随机变量时,例如,锻炼的小时数与体重的比较,我们使用什么?
MSIS

1
@MSIS-这应该是一个不同的问题,但是即使一个变量不是随机变量,也可以使用相关性。
Pere

1
@Pere:我问,以防您感兴趣:stats.stackexchange.com/questions/435257/…–
MSIS

3

其中变量之一是分类的计算相关性绝对没有错。强烈的正相关性意味着打开(或关闭,取决于您的习惯)类别变量会导致响应增加。例如,当计算变量归类的逻辑回归时,可能会发生这种情况:根据患者合并症(例如糖尿病和bmi)预测心脏病发作的机会。在这种情况下,BMI将与心脏病发作有非常强的相关性。您能得出结论这没有用吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.