关于连续预测变量的共线性有很多,但我在分类预测变量上找不到太多。我的数据如下所示。
第一个因素是遗传变量(等位基因计数),第二个因素是疾病类别。显然,基因在疾病之前,并且是显示导致诊断的症状的因素。但是,像SPSS心理中通常使用的II型或III型平方和的常规分析会失去效果。输入适当的订单(因为它与订单有关)时,我进行平方和分析的类型就会选择它。此外,疾病过程中可能存在与基因无关的额外成分,这些成分与II型或III型不能很好地鉴定,请参阅下面的anova (lm1) vs lm2或Anova。
示例数据:
set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)
library(car)
chisq.test(table(iv1, iv2)) # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1); lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1); anova(lm2)
Anova(lm1, type="II"); Anova(lm2, type="II")
- 对我来说,类型为I SS的lm1在背景理论看来似乎是分析数据的合适方法。我的假设正确吗?
- 我习惯于显式操纵正交设计,而这些问题通常不会出现。在以SPSS为中心的领域中,很难说服审阅者这是最好的过程(假设点1是正确的)吗?
- 在统计部分中要报告什么?还有其他分析或评论吗?
听到使用SPSS的人只知道III型或II型SS感到惊讶。你听起来像那样。
—
ttnphns 2011年
好吧,我曾经在我的问题中提到的知识缺口相同。它似乎更多地反映了人们的兴趣,知识以及如何将其引入软件,而不是软件本身。但是默认选项也发挥了很大的作用,SPSS中使用了默认的III型选项。
—
马特·阿尔布雷希特
您似乎在说,您可以使用SPSS的方差分析程序(unianova?)按特定顺序输入2个预测变量。我只知道一种通过切换到回归过程来指定顺序的方法。您是如何做到的?
—
rolando2 2012年