如何将序数分类变量作为自变量处理


18

我正在使用Logit模型。我的因变量是二进制。但是,我有一个独立变量,该变量是分类的并包含响应:1.very good, 2.good, 3.average, 4.poor and 5.very poor。因此,它是序数(“定量分类”)。我不确定如何在模型中处理此问题。我正在使用gretl

[@ttnphns的注:尽管问题说模型是logit的(因为因数是分类的),但关键问题-序数变量-基本上是相同的,无论是分类还是定量的因数。因此,这个问题也与线性回归同样相关-与逻辑回归或其他logit模型一样。]


我的因变量取值0和1,我有6个自变量,其中3个是绝对变量,这些变量就像“您如何评价您所在地区的当地卫生服务?您如何评价所在地区的当地交通以及您如何评价您所在地区的警察部门吗?回应是很好,很好,一般,贫穷和非常贫穷
rahmat 2016年

@Tim如果因变量是二进制,则不需要任何序数回归。含义是使用指标(虚拟)变量处理顺序预测变量。
Nick Cox

谢谢蒂姆,如果我没记错的话,我应该为所有类别创建一个虚拟对象?例如,对于一个独立变量,我有5个响应(非常好,好,平均,差和非常差),所以我应该创建5个假人。
rahmat

Answers:


14

序数变量的问题在于,根据定义,由于其级别之间的真实度量间隔是未知的,因此除伞形“单调”之外,不能假定任何适当的类型关系。例如,我们必须对此做些事情-“筛选或组合变体”或“更喜欢使某物最大化的东西”。

如果您坚持将IV级的Likert等级视为序数(而不是区间或标称),那么我有两种选择。

  1. 使用多项式对比,即模型中使用的每个此类预测变量不仅线性输入,而且平方和三次输入。因此,不仅可以捕获线性效果,而且可以捕获更一般的单调效果(线性效果对应于保持为标度/间隔的预测变量,而其他两个效果则将其视为具有不相等的间隔)。此外,还可以输入每个预测变量的虚拟变量,这将测试名义/阶乘效应。最后,您知道预测变量充当因子的程度,线性协变量的数量以及非线性协变量的数量。在几乎所有回归(线性,逻辑,其他广义线性模型)中,此选项都很容易实现。它将消耗df,因此样本大小应足够大。
  2. 使用最佳缩放比例回归。这种方法将一个有序预测变量单调转换为一个间隔预测变量,从而最大化对预测变量的线性影响。CATREG(分类回归)是SPSS中此思想的实现。您的特定情况的一个问题是您想进行逻辑分析,而不是线性回归,但是CATREG不是基于logit模型的。我认为这个障碍相对较小,因为您的预测仅为2类(二进制):我的意思是您可能仍会使用CATREG进行最佳缩放,然后使用获得的转换尺度预测器进行最终logistic回归。
  3. 还应注意,在简单的一种比例或序数DV和一种序数IV的Jonckheere-Terpstra检验的简单情况下,它可能是一种合理的分析方法,而不是回归方法。

也可能有其他建议。以上三个是我立即想到您的问题时想到的。

让我建议您也访问以下主题:标称和小数或序数之间的关联在序数和标度之间关联。尽管它们与特定回归无关,但它们可能会有所帮助。

但是,这些线程是关于回归,特别是物流:你必须进去看看:一个2345


(+1)(1)如果您认为足够的话,也可以仅使用前几个多项式对比。(2)在同一数据集中根据响应定义预测变量时,应带有健康警告。(3)您也可以惩罚相邻级别的系数之间的差异-参见stats.stackexchange.com/q/77796/17230
Scortchi-恢复莫妮卡

1
@Scortchi,谢谢您的评论。关于(2)-是的,尤其是,对要进行最终回归的数据的单独子集进行最佳缩放当然更为可靠。(3)-谢谢,我也要熟悉一下。
ttnphns

1
另一种选择是使用加性模型,并通过样条线表示序数独立变量。
kjetil b halvorsen

2
@kjetilbhalvorsen,是的,有可能,谢谢。但是,在点2中已经隐含了此选项,因为对序数变量进行最佳缩放的一种方法是使用样条曲线。
ttnphns

7

只需添加其他出色的答案即可:一种现代的处理方式可能是通过加法模型,通过样条线表示有序自变量。如果您确定该变量的效果是单调的,则可以限制为单调样条。(有关使用的单调样条曲线的示例,请参见寻找适合S型曲线的函数)。

在R中,如果将顺序预测变量ord <- factor(sample(1:5,20,replace=TRUE),ordered=TRUE) 设为“有序因子”(例如使用code ),则在线性模型中,它将通过正交多项式表示。


4
稍微扩展一下它会很好,以包括更多一些如何与顺序预测器一起使用的细节。
ttnphns

0

k1k


3
n

1
谢谢蒂姆和尼克。因此,我必须在回归中运行所有四个虚拟变量。对?如果是这样,我有3个类别变量,每个都有5个响应。因此,我的模型将具有12个变量。对?
rahmat

1
谢谢@NickCox -我是新来的CV世界,体会到尊重更正
奥斯汀牛逼

1
不幸的是,您还没有解释为什么根本需要虚拟变量。我不认为这个答案,就目前的情况而言,似乎是对这个问题的答案。
ttnphns

2
在支持方面,我认为不是需要指标的情况;只是它们允许捕获各种效果,包括非单调关系。
尼克·考克斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.