Answers:
当响应或结果受限时,在拟合模型时会出现各种问题,包括以下内容:
原则上,任何可以预测响应值超出那些范围的模型都是可疑的。因此,线性模型可能会出现问题,因为每当本身在一个或两个方向上都无界时,预测变量和系数上就没有边界。但是,这种关系可能很弱,以至于不能咬和和/或预测很可能仍在预测变量的观察或合理范围内。在一个极端情况下,如果响应是某个平均值噪声,那么哪个模型适合就不重要了。
由于响应不能超出其范围,因此非线性关系通常更合理,因为预测的响应逐渐趋近于渐近范围。S型曲线或曲面(例如由logit或probit模型预测的曲面)在这方面很有吸引力,现在不难拟合。诸如识字率(或采用任何新思想的分数)之类的反应通常会及时显示出这种S型曲线,并且几乎可以与其他任何预测因素一起显示出来。
有界响应不能具有纯回归或香草回归中预期的方差属性。当均值响应接近上下限时,方差总是接近零。
应根据对基础生成过程有效的方法和知识来选择模型。客户或听众是否了解特定的模特家庭也可以指导实践。
请注意,我故意避免做出笼统的判断,例如好/不好,适当/不适当,对/错。所有模型充其量都是近似值,而近似值的吸引力或对项目足够好,很难预测。我通常倾向于将logit模型作为自己有限响应的首选,但是即使这样,偏好也部分基于习惯(例如,我出于无充分理由而避免使用Probit模型),部分基于我将向何处报告结果的读者,或者在统计上应该是明智的。
您的离散量表示例是得分1-100(在我标记的作业中,肯定是0!)或排名1-17。对于这样的标度,我通常会考虑将连续模型拟合为缩放为[0,1]的响应。但是,有序回归模型的从业人员会很乐意将此类模型拟合为具有大量离散值的标度。如果他们有这种想法,我会很高兴。
我从事卫生服务研究。我们收集患者报告的结果,例如身体机能或抑郁症状,并且经常以您提到的格式对它们进行评分:通过对量表中的所有单个问题求和,得出0到N的量表。
我回顾过的绝大多数文献都只是使用线性模型(如果数据来自重复观察,则使用分层线性模型)。我还没有看到有人使用@NickCox的建议(部分)logit模型,尽管这是一个非常合理的模型。
项目反应理论令我震惊,因为它是另一个可行的统计模型。在这里假设一些潜在特征使用逻辑模型或有序逻辑模型,导致对问题的回答。这从本质上处理了Nick提出的有界和可能的非线性问题。
下图来自我即将进行的论文工作。在这里,我将线性模型(红色)与已转换为Z评分的抑郁症状问题分数相匹配,将蓝色的(解释性)IRT模型拟合为相同的问题。基本上,两个模型的系数都在相同的范围内(即标准差)。实际上,系数的大小有相当大的一致性。正如尼克所说,所有模型都是错误的。但是线性模型使用起来可能不太错误。
(注意:上面的模型适合mirt
使用R. Graph的Phil Chalmers 软件包,该软件包使用ggplot2
和制作ggthemes
。颜色方案来自Stata默认颜色方案。)
线性回归可以“适当地”描述此类数据,但可能性不大。在这种类型的数据中,线性回归的许多假设容易被违反,以至于线性回归变得不明智。我只选择一些假设作为例子,
如果数据趋于落在范围的中心,远离边缘,则可以减轻对这些假设的违反。但是,实际上,线性回归并不是此类数据的最佳工具。更好的替代方法可能是二项式回归或泊松回归。