我知道线性回归中的响应变量必须是连续的,但是为什么会这样呢?我似乎无法在网上找到任何东西来解释为什么我不能将离散数据用于响应变量。
我知道线性回归中的响应变量必须是连续的,但是为什么会这样呢?我似乎无法在网上找到任何东西来解释为什么我不能将离散数据用于响应变量。
Answers:
没有什么可以阻止您在任意两列数字上使用线性回归的。有时甚至可能是一个非常明智的选择。
但是,获得的结果的属性不一定有用(例如,不一定是您可能希望的所有属性)。
通常,通过回归,您试图使Y的条件均值与预测变量之间符合某种关系-即,某种形式的拟合关系;可以说是造型条件期望的行为是什么“回归” 是。[线性回归是当您对g采用一种特定形式时]
例如,考虑离散的极端情况,即响应变量的分布为0或1,并且其值1随某些预测变量()的变化而变化的可能性。即E (Y | x )= P (Y = 1 | X = x )。
如果您将这种关系与线性回归模型拟合,那么除了狭窄的区间外,它将预测不可能的值-小于0或大于1:
确实,也有可能看到随着期望值接近边界,值必须越来越频繁地在该边界处取值,因此其方差变得比期望值接近中间值时要小-方差必须减小到0 。因此,普通回归会导致权重错误,从而使条件期望值接近0或1的区域中的数据欠加权。从该观察的已知总数中得出)
此外,我们通常希望条件均值会逐渐接近上限和下限,这意味着该关系通常是弯曲的,而不是直线的,因此我们的线性回归在数据范围内也可能会出错。
当您靠近一个边界时,仅在一侧边界的数据(例如,没有上限)的数据也会发生类似的问题。
有可能(如果很少)拥有两端都没有限制的离散数据。如果变量采用许多不同的值,则离散度的影响相对较小,只要模型的均值和方差描述合理即可。
这是一个示例,对以下条件使用线性回归是完全合理的:
即使在任何x值的细条中,也可能只观察到几个不同的y值(宽度1的间隔大约为10),但可以很好地估计期望值,甚至是标准误差和p-在此特定情况下,值和置信区间将或多或少地合理。预测间隔的效果可能会稍差一些(因为在这种情况下,非正态性往往会产生更直接的影响)
-
如果要执行假设检验或计算置信度或预测间隔,则通常的过程会假设正态性。在某些情况下,这可能很重要。但是,可以在不进行特定假设的情况下进行推断。
在线性回归中,我们需要响应保持连续的原因是结合我们所做的假设。如果自变量是连续的,则我们假设和之间的线性关系为X ÿ
其中,残留是正常的。形成公式,我们知道是连续的。ÿ
另一方面,在广义线性模型中,响应变量可以是离散的/分类的(逻辑回归)。或计数(泊松回归)。
编辑以解决mark999并重新映射评论。
线性回归是一个通用术语,可能使人们有所不同。没有什么可以阻止我们在离散变量上使用它,或者自变量和因变量不是线性的。
如果我们不做任何假设并运行线性回归,我们仍然可以获得结果。如果结果满足我们的需求,那么整个过程就可以了。但是,正如Glan_b所说
如果要执行假设检验或计算置信度或预测间隔,则通常的过程会假设正态性。
我之所以这么回答,是因为我假设OP正在要求古典统计书中的线性回归,在教授线性回归时,通常我们会采用这种假设。
从理论上讲,以上答案是正确的。但是,实际上,这全都取决于数据的范围和模型的预测能力。
一个真实的例子是旧的MDS破产模型。这是消费信贷放贷人用来预测借款人宣布破产的可能性的早期风险评分之一。该模型使用了借款人的信用报告中的详细数据以及一个二进制0/1标志来指示预测期内的破产。然后将这些数据输入到...是的..您猜对了。
普通的旧线性回归
我曾经有机会与建立此模型的人之一交谈。我问他违反假设的情况。他解释说,即使它完全违反了关于残差等的假设,他也不在乎。
原来...
这个0/1线性回归模型(在标准化/缩放至易于阅读的分数并与适当的临界值配对时)针对保留的数据样本进行了清晰验证,并且表现出色,可作为破产的好/坏判别器。
多年来,该模型一直被用作第二信用评分,以防止破产与FICO的风险评分(旨在预测60天以上的信用违约)并存。