Y有界且离散时的线性回归


14

问题很简单:当Y有界且离散时(例如,测试分数为1〜100,一些预定义的排名为1〜17),使用线性回归是否合适?在这种情况下,使用线性回归是“不好”,还是使用线性回归是完全错误的?

Answers:


10

当响应或结果受限时,在拟合模型时会出现各种问题,包括以下内容: ÿ

  1. 原则上,任何可以预测响应值超出那些范围的模型都是可疑的。因此,线性模型可能会出现问题,因为每当本身在一个或两个方向上都无界时,预测变量和系数上就没有边界。但是,这种关系可能很弱,以至于不能咬和和/或预测很可能仍在预测变量的观察或合理范围内。在一个极端情况下,如果响应是某个平均值噪声,那么哪个模型适合就不重要了。ÿ^=XbXbX+

  2. 由于响应不能超出其范围,因此非线性关系通常更合理,因为预测的响应逐渐趋近于渐近范围。S型曲线或曲面(例如由logit或probit模型预测的曲面)在这方面很有吸引力,现在不难拟合。诸如识字率(或采用任何新思想的分数)之类的反应通常会及时显示出这种S型曲线,并且几乎可以与其他任何预测因素一起显示出来。

  3. 有界响应不能具有纯回归或香草回归中预期的方差属性。当均值响应接近上下限时,方差总是接近零。

应根据对基础生成过程有效的方法和知识来选择模型。客户或听众是否了解特定的模特家庭也可以指导实践。

请注意,我故意避免做出笼统的判断,例如好/不好,适当/不适当,对/错。所有模型充其量都是近似值,而近似值的吸引力或对项目足够好,很难预测。我通常倾向于将logit模型作为自己有限响应的首选,但是即使这样,偏好也部分基于习惯(例如,我出于无充分理由而避免使用Probit模型),部分基于我将向何处报告结果的读者,或者在统计上应该是明智的。

您的离散量表示例是得分1-100(在我标记的作业中,肯定是0!)或排名1-17。对于这样的标度,我通常会考虑将连续模型拟合为缩放为[0,1]的响应。但是,有序回归模型的从业人员会很乐意将此类模型拟合为具有大量离散值的标度。如果他们有这种想法,我会很高兴。


8

我从事卫生服务研究。我们收集患者报告的结果,例如身体机能或抑郁症状,并且经常以您提到的格式对它们进行评分:通过对量表中的所有单个问题求和,得出0到N的量表。

我回顾过的绝大多数文献都只是使用线性模型(如果数据来自重复观察,则使用分层线性模型)。我还没有看到有人使用@NickCox的建议(部分)logit模型,尽管这是一个非常合理的模型。

项目反应理论令我震惊,因为它是另一个可行的统计模型。在这里假设一些潜在特征θ使用逻辑模型或有序逻辑模型,导致对问题的回答。这从本质上处理了Nick提出的有界和可能的非线性问题。

下图来自我即将进行的论文工作。在这里,我将线性模型(红色)与已转换为Z评分的抑郁症状问题分数相匹配,将蓝色的(解释性)IRT模型拟合为相同的问题。基本上,两个模型的系数都在相同的范围内(即标准差)。实际上,系数的大小有相当大的一致性。正如尼克所说,所有模型都是错误的。但是线性模型使用起来可能不太错误。

在此处输入图片说明

-

(注意:上面的模型适合mirt使用R. Graph的Phil Chalmers 软件包,该软件包使用ggplot2和制作ggthemes。颜色方案来自Stata默认颜色方案。)


6
仅仅因为线性模型被广泛使用,并不意味着它们是合适的。许多人使用线性模型,因为这只是他们所了解或满意的。
qwr

1
医学文献尤其是实践欠佳,充斥着“这就是本领域/期刊所做的”类型的思想观念。作为一般规则,我不会仅仅因为它的外观(无论在医学研究中是多么普遍)而使用或不使用它。
LSC

1

查看预测值,并检查它们是否具有与原始Ys大致相同的分布。如果是这种情况,则线性回归可能很好。通过改进模型,您将一无所获。


1

线性回归可以“适当地”描述此类数据,但可能性不大。在这种类型的数据中,线性回归的许多假设容易被违反,以至于线性回归变得不明智。我只选择一些假设作为例子,

  1. 正态性-即使忽略此类数据的离散性,此类数据也往往表现出极端的正态性违反,因为分布被边界“切断”了。
  2. 均方根性-这种类型的数据倾向于违反均方根性。与边缘相比,当实际均值朝向范围的中心时,方差往往会更大。
  3. 线性-由于Y的范围是有界的,因此会自动违反该假设。

如果数据趋于落在范围的中心,远离边缘,则可以减轻对这些假设的违反。但是,实际上,线性回归并不是此类数据的最佳工具。更好的替代方法可能是二项式回归或泊松回归。


2
很难看到泊松回归是双重有限响应的候选者。
Nick Cox

0

如果响应仅包含几个类别,并且您的响应变量为序数,则可以使用分类方法或序数回归

纯线性回归既不会提供离散类别,也不会提供有限的响应变量。可以通过使用logit模型(如在logistic回归中)来修复后者。对于诸如带有100个类别1-100的测试分数之类的东西,您也可以简化预测并使用有界的响应变量。


0

使用cdf(统计信息中的累积分布函数)。如果您的模型是y = xb + e,则将其更改为y = cdf(xb + e)。您将需要重新缩放因变量数据,使其介于0到1之间。如果它是正数,则将它们除以max,然后进行模型预测并乘以相同的数字。然后去检查拟合度,看看边界预测是否可以改善。

您可能希望使用固定算法来为您处理统计信息。


1
这似乎混淆了两个事实:(1)对于logit,probit和要应用的相似模型,应将有限响应的比例缩放到0和1之间(2)cdfs也应在0和1之间变化。在这样对待分数响应时,您不是对其CDF进行建模。
尼克·考克斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.