逻辑回归和序数自变量


10

我发现了这篇文章:

是。该系数反映了顺序预测变量中每个变化增量的对数几率变化。这个(非常常见的)模型规范假设预测变量在其增量上具有线性影响。为了检验假设,您可以将使用序数变量作为单个预测变量的模型与将响应离散化并将其视为多个预测变量的模型进行比较(就像变量是名义变量一样)。如果后一种模型的拟合效果不佳,则将每个增量视为具有线性效应是合理的。

@ dmk38 2010年12月12日,5:21

您能否告诉我在哪里可以找到支持该主张的出版物?我正在处理数据,我想在逻辑回归中使用序数自变量。


Answers:


2

正如@Scortchi所指出的,您还可以使用正交多项式。这是R中的快速演示:

set.seed(3406)
N      = 50
real.x = runif(N, 0, 10)
ord.x  = cut(real.x, breaks=c(0,2,4,6,8,10), labels=FALSE)
ord.x  = factor(ord.x, levels=1:5, ordered=TRUE)
lo.lin = -3 + .5*real.x
p.lin  = exp(lo.lin)/(1 + exp(lo.lin))
y.lin  = rbinom(N, 1, prob=p.lin)

mod.lin = glm(y.lin~ord.x, family=binomial)
summary(mod.lin)
# ...
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)   
# (Intercept)  0.05754    0.36635   0.157  0.87520   
# ord.x.L      2.94083    0.90304   3.257  0.00113 **
# ord.x.Q      0.94049    0.85724   1.097  0.27260   
# ord.x.C     -0.67049    0.77171  -0.869  0.38494   
# ord.x^4     -0.09155    0.73376  -0.125  0.90071   
# ...

8

任何关于逻辑回归的好书都会有这个,尽管也许不是这些话。尝试使用Agresti的“分类数据分析”获得非常权威的信息。

它也遵循逻辑回归(或其他回归)的定义。序数独立变量的显式方法很少。通常的选择是将其视为分类的(失去顺序)或连续的(使假设在您引用的内容中陈述)。如果您将其视为连续的,则执行分析的程序将不知道它是顺序的。例如,假设您的IV是“您对奥巴马总统有多喜欢?” 而您的答案选择是李克特量表,范围从1.“非常”到5。“完全没有”。如果您将此视为连续的,那么(从程序的角度来看)“ 5”答案是“ 1”答案的5倍。这可能是合理的,也可能不是合理的。


3
第5.4.6节。然后,您可以使用正交多项式扩展该思想,以对有序预测变量进行编码。
Scortchi-恢复莫妮卡

感谢您的评论,它们将对我的分析大有帮助。
Frederico

2
@Frederico,如果Peter的回答解决了您的问题,则应通过单击左侧总投票下方的复选标记来接受它。
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.