二分和连续变量之间的相关性


10

我试图找到二分和连续变量之间的相关性。

从我对此的基础工作中,我发现我必须使用独立的t检验,其前提是变量的分布必须是正态的。

我进行了Kolmogorov-Smirnov检验以测试正态性,发现连续变量是非正态变量并且存在偏斜(针对约4,000个数据点)。

我对变量的整个范围进行了Kolmogorov-Smirnov检验。我应该将它们分组并进行测试吗?就是说,如果我有risk level0=没有危险,1=有危险)和胆固醇水平,那么我应该:

  • 将它们分为两组,例如

    Risk level =0 (Cholestrol level) -> Apply KS
    Risk level =1 (Cholestrol level) -> Apply KS
    
  • 一起带他们参加考试吗?(我仅对整个数据集执行了此操作。)

之后,如果仍然不正常,该怎么办?

编辑: 上面的情况只是我试图提供我的问题的描述。我有一个数据集,其中包含1000多个变量和大约4000个样本。它们本质上是连续的或绝对的。我的任务是根据这些变量预测一个二分变量(也许想出一个逻辑回归模型)。因此,我认为最初的调查将涉及发现二分法和连续变量之间的相关性。

我试图查看变量的分布情况,因此尝试进行t检验。在这里,我发现正常性是一个问题。在大多数这些变量中,Kolmogorov-Smirnov检验的显着性值为0.00。

我应该在这里假设正常吗?这些变量的偏斜度和峰度还表明,几乎在所有情况下数据都偏斜(> 0)。

根据下面给出的注释,我将进一步研究点-二元相关性。但是关于变量的分布,我仍然不确定。


1
连续变量和二进制(组)变量之间的(任何类型的)相关性不仅仅只是组之间均值(某种均值...)的比较而已(更多,甚至更少)。这样做更好些!
kjetil b halvorsen 2014年

Answers:


14

我有点困惑; 您的标题为“相关”,但您的帖子为t检验。T检验是对中心位置的检验-更具体地说,一组数据的平均值与另一组数据的平均值不同吗?另一方面,相关性显示两个变量之间的关系。有多种相关度量,似乎双点相关适合您的情况。

您认为t检验假定是正态性是正确的;但是,即使对于N为4000的琐碎非正态性,正态性检验也可能会给出显着结果。如果两组数据的方差大致相等并且样本大小大致相等。但是非参数测试对异常值的鲁棒性更高,即使分布是正态的,它们中大多数也具有与t检验一样高的功效。

但是,在您的示例中,您将“胆固醇”用作高风险或无风险的食品。这几乎肯定是一个坏主意。将连续变量二分法会引发神奇的思考。它说,在某些时候,胆固醇从“无风险”变为“危险”。假设您使用200作为截止值-那么您说胆固醇为201的人就像是400的人,而199的人就像是100的人。这没有意义。


2
我同意,并且我认为我们大多数人都同意,将信息二等分会浪费信息,并且这可能是粗略,粗略或笨拙的方法。我只是认为“魔术思维”论点有点过分。选择掩饰差异与相信没有差异是不同的。我希望将来会有一段时间,我会发现方便和值得权衡的原因是,出于分析或报表目的,使用一些连续变量来划分类别。只是我的2美分。
rolando2 2012年

2
[R2

6

让我们简化一下。如果胆固醇水平为N = 4,000,那么您的结果不受异常值的影响应该没有问题。因此,您可以使用相关性本身,如初始句子所示。通过Pearson,Spearman或Point-Biserial方法评估相关性几乎没有什么不同。

相反,如果您真的需要用高风险和低风险组之间典型的胆固醇差异来表达结果,则可以使用Mann-Whitney U检验,但是您也可以使用信息量更大的t检验。有了这个N(再加上天文学离群值,您无疑会排除掉某些东西),您不必担心缺少正态性会损害您的结果。


感谢您的回复。但是,如果我必须知道异常值会造成较大的失真,那么使用峰度和偏度来检测它是否正确?如果在以上峰度和偏度的值以上是正确的,我应该假定分布不正常。感谢您的回复
SREE Aurovindh

我假设基于有限的内容知识,对于胆固醇,您所获得的任何值都不会比其他任何一个值高几个数量级。这就是为什么我认为您可以使用相关或t检验之类的参数方法的原因。不是我认为分布是正常的。您不需要它是正常的。顺便说一句,根据彼得的回答:我相信(并希望)您有一些高/低风险状态的来源,而这与胆固醇评分无关。我同意二分法可能无济于事。
rolando2 2012年

2
我是否可以建议您在原始问题中添加一个标记为“ EDIT:....”的部分,以阐明到目前为止仍未收到答案和评论为您解决的问题。
rolando2 2012年

谢谢您的建议。我已经更新了相同的内容。对于歧义性问题排在第一位
抱歉
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.