为什么要抑制线性回归中的截距?


20

在许多统计数据包中,包括SAS,SPSS甚至更多,都有“抑制拦截”的选项。你为什么想这么做?

Answers:


16

如果由于某种原因你知道的截距(特别是如果它是零),你可以避免浪费方差在您的数据估算东西,你已经知道了,并在你的价值观更多的信心必须估计。

一个稍微简化的示例是,如果您已经(从领域知识中)知道一个变量(平均)是另一个变量的倍数,并且您正在尝试查找该倍数。


我不是完全理解它,但是在我用R创建的模型中,我有类似lm(a〜b / c-1)的东西,它通过抑制截距(“ -1”来创建b和c之间的相互作用。在R)中,我得到了更容易解释的答案,与没有抑制拦截的本质上相同。通过某种方式,交互使这成为可能。
韦恩

基本相同的更容易解释的答案?这似乎是一个矛盾。也许您应该将此作为一个新问题进行介绍?
尼克·萨布

如果我看的系数,与拦截有一个(拦截)tempwarmer(我的变量之一是温度可以是温暖凉爽)。要解释这些系数,我必须知道(intercept)直接对应于tempcooler,tempwarmer + (intercept)是可直接解释的tempwarmer。如果我抑制拦截,我直接看到tempcoolertempwarmer。也许是R的公式和线性建模的怪癖,但是...
韦恩

12

考虑三级分类协变量的情况。如果一个截距,则将需要2个指示符变量。使用指标变量的常规编码,任一指标变量的系数都是与参考组相比的平均差。通过抑制截距,您将拥有3个代表分类协变量的变量,而不仅仅是2个。系数是该组的平均估计值。政治领域的一个更具体的例子是,人们可能正在研究美国的50个州。代替具有状态的拦截器和49个指示符变量,通常更优选抑制拦截并具有50个变量。


用这种方法更容易解释系数
概率

1
是的,但是它会被两个或多个分类变量分解!
kjetil b halvorsen

2

用一个具体的例子来说明@Nick Sabbe的观点。

我曾经看到一位研究人员介绍了根据树的宽度来确定树的年龄的模型。可以假设当树的年龄为零时,其有效宽度为零。因此,不需要拦截。


8
是否明智取决于感兴趣的因变量的范围。考虑具有速度和停止距离的汽车制动数据。您可以拟合具有或不具有截距的二次模型。感兴趣的速度通常以大约50 km / hr的速度开始,然后达到130 km / hr的速度。拟合二次在这种情况下拦截更有意义,我认为,作为迫使截距为零可以承担(几乎)显著不适配-问题。停止的汽车的“制动距离”为零这一事实与当前的建模问题并不特别相关。
主教

@cardinal是的,我想知道是否应该提出类似的观点。我发现在某些非线性回归建模环境中,人们对具有提供理论上合理的模型的模型更感兴趣,该模型可以在数据范围之外进行准确的预测(例如,在学习曲线数据速度时,模型不应预测速度低于0秒的模型)。在这种情况下,将截距限制为零可能更合适,即使这会导致数据预测下降。
Jeromy Anglim

@cardinal我同意多项式模型很少在数据范围之外进行合理的预测,因此在这种模型中将截距限制为0并不是一个好主意。
Jeromy Anglim

感谢您的意见。我的发言并不是针对多项式模型。二次方的选择仅基于实际的物理动机(即经典力学)。我要表达的观点是,应该仔细考虑感兴趣的建模问题。有时做(或似乎)“理论上不合理”的事情实际上在统计学上更合适。
主教
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.