类别自变量和连续因变量的回归


20

我只是意识到我一直在研究回归问题,其中自变量始终是数字。如果所有自变量都是分类的,是否可以使用线性回归?

Answers:


23

只是一些语义,需要明确:

  • 因变量==结果== y在回归公式中,例如 y=β0+β1x1+β2x2+...+βkxk
  • 自变量==预测变量== 回归公式中的“ xk ” 之一,例如ÿ=β0+β1个X1个+β2X2++βķXķ

因此,在大多数情况下,回归的类型取决于因变量,结果或“ ÿ ”变量的类型。例如,当因变量是连续的时,使用线性回归;当因变量是2个类别时,使用逻辑回归;当因变量超过2个类别时,则使用多元回归。预测变量可以是任何值(分类的名义或有序的,连续的或混合的)

(以下备注可能对您来说是多余的,但无论如何我还是要添加它)

但是,请注意,大多数软件都要求您将分类预测变量重新编码为二进制数值系统。这仅表示将性别编码为女性为0,男性为1,反之亦然。对于具有2个以上级别的分类变量,您需要将它们重新编码为虚拟变量,其中是级别数,并且这些虚拟变量在相应类别中时包含0或1。这样,每个人(样本)都应表示为他/她所属的虚拟变量为1,其他人为0,而当他/她为参考组的一部分时,所有虚拟变量为0。大号-1个大号


谢谢。正如我在问题标题中所写,因变量是连续的。因此,我的回答是“只要您可以进行伪编码,就可以使用线性回归”。如果我错了,请纠正我。
famargar

是的,那是我的意思。
IWS

2
我看到您已经编辑了问题以添加第二个问题,并在此处发布了类似的问题:stats.stackexchange.com/questions/267137/…。另外,我想问您通过平滑预测是什么意思,或者通过预测离散值是什么意思。AFAIK线性回归将根据您的预测变量(通过回归公式)为您提供连续依赖项的平均值。请详细说明
-IWS

1
当您完全回答了原始问题时,我删除了第二个问题。要回答您的问题,如果我将新的“事件”()输入模型,则将得到不同的值,这些值全部取四个回归值之一。我想我想说的是,如果分类变量实际上是序数,我想在值之间引入一些(logit?)平滑。ñX一世ñÿ
famargar

1
在有序变量的情况下,总是可以选择假定它“足够连续”以将其用作连续预测变量(通过简单地不使用虚拟变量,而是将变量作为数字形式输入)。但是,如果您这样做并且只有几个级别,则仅通过几个点拟合一条直线(因此假设线性)(因此请注意,这里的级别数量很重要)。利克特量表是这种方式使用的变量的一个很好的例子,遗憾的是,它在各种情况下都会产生问题。
IWS
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.