分类变量之间的共线性


11

关于连续预测变量的共线性有很多,但我在分类预测变量上找不到太多。我的数据如下所示。

第一个因素是遗传变量(等位基因计数),第二个因素是疾病类别。显然,基因在疾病之前,并且是显示导致诊断的症状的因素。但是,像SPSS心理中通常使用的II型或III型平方和的常规分析会失去效果。输入适当的订单(因为它与订单有关)时,我进行平方和分析的类型就会选择它。此外,疾病过程中可能存在与基因无关的额外成分,这些成分与II型或III型不能很好地鉴定,请参阅下面的anova (lm1) vs lm2或Anova。

示例数据:

set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv  <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)

library(car)
chisq.test(table(iv1, iv2))          # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1);    lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1);                    anova(lm2)
Anova(lm1, type="II");         Anova(lm2, type="II")
  1. 对我来说,类型为I SS的lm1在背景理论看来似乎是分析数据的合适方法。我的假设正确吗?
  2. 我习惯于显式操纵正交设计,而这些问题通常不会出现。在以SPSS为中心的领域中,很难说服审阅者这是最好的过程(假设点1是正确的)吗?
  3. 在统计部分中要报告什么?还有其他分析或评论吗?

听到使用SPSS的人只知道III型或II型SS感到惊讶。你听起来像那样。
ttnphns 2011年

2
好吧,我曾经在我的问题中提到的知识缺口相同。它似乎更多地反映了人们的兴趣,知识以及如何将其引入软件,而不是软件本身。但是默认选项也发挥了很大的作用,SPSS中使用了默认的III型选项。
马特·阿尔布雷希特

您似乎在说,您可以使用SPSS的方差分析程序(unianova?)按特定顺序输入2个预测变量。我只知道一种通过切换到回归过程来指定顺序的方法。您是如何做到的?
rolando2 2012年

Answers:


8

因素之间的共线性非常复杂。经典示例是对三个连续变量“年龄”,“期限”和“年份”进行分组和虚拟编码时得到的示例。在以下方面进行分析:

在删除四个(不是三个)参考之后,所获得的系数只会被识别到未知的线性趋势。可以分析这是因为共线性来自源变量中的已知共线性(年龄+年=周期)。

关于两个因素之间的虚假共线性,也做了一些工作。在以下方面进行了分析:

结果是分类变量之间的共线性意味着必须将数据集拆分为不连贯的部分,并在每个组件中使用参考级别。来自不同组件的估计系数无法直接进行比较。

对于三个或更多因素之间更复杂的共线性,情况很复杂。确实存在找到可估计函数的过程,即可解释的系数的线性组合,例如:

  • Godolphin和Godolphin在Utilitas Mathematica(60)第51-65页中的“关于行-列设计的连通性”

但是据我所知,尚不存在以直觉方式处理此类共线性的通用白银子弹。


1

与周围的一些统计人员聊天之后。看来这种问题可能不是最正确的答案。当它们之间高度相关时,使用方差分析(或类似方法)调查神经心理学措施之间的遗传和诊断相互作用是一个难题。相反,我已经指出要使用结构方程建模来检查数据的结构。

当我进一步了解SEM时,此答案将得到更新。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.