在回归模型中,所有交互项都需要它们各自的项吗?


68

我实际上正在审阅作者将5-6 logit回归模型与AIC进行比较的手稿。但是,某些模型具有交互项,但不包括各个协变量项。这样做有意义吗?

例如(不特定于logit模型):

M1: Y = X1 + X2 + X1*X2
M2: Y = X1 + X2
M3: Y = X1 + X1*X2 (missing X2)
M4: Y = X2 + X1*X2 (missing X1)
M5: Y = X1*X2 (missing X1 & X2)

我一直给人的印象是,如果您有交互项X1 * X2,则还需要X1 + X2。因此,模型1和2会很好,但模型3-5会有问题(即使AIC较低)。这个对吗?它是准则还是更多准则?有没有人有很好的参考资料来解释其背后的原因?我只是想确保我不会在评价中传达任何重要信息。

谢谢您的任何想法,丹


8
+1,我认为这是一个非常好的问题。您可能还想检查一下涵盖了相同地区的早期问题。那里的答案也非常好。
gung

已经有很多好的答案。有一纸由Rindskopf在某些情况下,你就不会需要的主要影响。(另请参阅此一个
彼得·弗洛姆

3
AFAIK:R的lm():中用于交互,如A:B。并且*对于主要效果和交互而言,因此A * B = A + B + A:B。因此,如果论文的作者遵循这种表示法,那么我认为没有任何模型会缺少主要的影响吗?
2014年

另外,与当前答案相同的逻辑适用于更高阶的交互(例如,如果包括3方向,则需要所有2交互)
Peter Flom

Answers:


38

在大多数情况下,这不是一个好主意-主要原因是它不再使模型随位置移动而不变。例如,假设您有一个结果和两个预测变量x iz i并指定模型:ÿ一世X一世ž一世

ÿ一世=β0+β1个X一世ž一世+ε

如果您要通过预测变量使它们居中,则变为X一世ž一世

X一世-X¯ž一世-ž¯=X一世ž一世-X一世ž¯-ž一世X¯+X¯ž¯

因此,您可以看到主要效果已重新引入模型中。

我在这里给出了一个启发式的论点,但这确实提出了一个实际的问题。如Faraway(2005)第114页所述,当模型中未包含主要效果时,比例的累加变化会更改模型推论,而包含低阶项时则不会发生这种情况。通常不希望出现诸如位置偏移之类的任意事情,从而导致统计推断(从而导致查询结论)发生根本性变化,例如在模型中包含多项式项或没有低阶影响的相互作用时可能发生这种情况。

注意:在某些特殊情况下,如果具有某些特定的实质含义,或者观察乘积而不是单个变量x iz i,则可能只希望包括交互。但是,在那种情况下,人们不妨想到预测变量a i = x i z i,然后继续进行模型X一世ž一世X一世ž一世一种一世=X一世ž一世

ÿ一世=α0+α1个一种一世+ε一世

而不是视为交互项。一种一世


additive change in scale changes the inference (the t -statistics) for all but the highest order terms when any lower order terms are left out of the model预测的添加剂改变通常改变牛逼的,即使在一个完整的模型,它们的主要作用(低阶项)。这是整体配合被保留(但添加剂变化的情况下,不会保留在模型中包含一些重要的作用下降)(R ^ 2)。那是你想说的吗?
ttnphns 2012年

是的,@ ttnphns是正确的-感谢您指出这一点-我对答案做了一些修改以反映这一点。
2012年

28

到目前为止,所有答案似乎都遗漏了一个非常基本的观点:您选择的功能形式应该足够灵活以捕获与科学相关的功能。在没有科学依据的情况下,模型2-5在某些条件上施加了零系数。即使在科学上合理,模型1仍然具有吸引力,因为您最好测试零系数而不是强加零系数。

关键是要了解限制的含义。避免使用3-5模型的典型建议是,在大多数应用中,它们施加的假设在科学上是不可信的。模型3假定X2仅影响斜率dY / dX1,但不影响水平。模型4假设X1仅影响斜率dY / dX2,但不影响水平。模型5假设X1和X2都不影响电平,而仅dY / dX1或dY / dX2影响。在大多数应用中,这些假设似乎并不合理。模型2的系数也为零,但仍有一些优点。它为数据提供了最佳的线性近似,在许多情况下都满足科学目标。


5
(+1)都是如此,但原始的发帖人似乎描述了作者试图进行模型选择的情况,并且他们的某些候选模型不包括交互作用-因此,他们的动机受到AIC的指导而不是实质性的操作(这总是很危险的事情,但是显然他们已经做到了)。当您受实质性指导时,则应由该模型决定模型结构。但是,如我在回答中所指出的那样,当您以统计标准为指导时,忽略主要影响可能会导致性能变差。
2012年

16

X1个X2根据所使用的编码方案,可以为[0、0、0、1]或[1,-1,-1、1]。我相信,在一种编码方案中,只有交互作用是“重要的”,而在另一种编码方案中,所有术语都是“重要的”。这意味着有意义的解释性决策将基于任意编码决策做出,而实际上,您的软件可能是在您不知情的情况下为您做出的。我认识到这只是一个小问题,但这只是一个原因,通常仅保留交互作用(当然也不要基于p值选择预测变量的子集)通常不是一个好主意。


1
类别主效应的显着性检验不变。一组可能与治疗编码下的参考组有显着差异,但与对比编码下的“均值”效应没有显着差异。
概率

10

由于您正在审阅论文,因此您可能建议作者讨论模型层次结构的问题,并证明他们偏离模型层次的理由。

以下是一些参考:

  1. Nelder JA。响应面模型中术语的选择-弱遗传原理有多强?美国统计学家。1998; 52:315-8。http://www.jstor.org/pss/2685433。2010年6月10日访问。

  2. Peixoto JL。多项式回归模型中的分层变量选择。美国统计学家。1987; 41:311-3。http://www.jstor.org/pss/2684752。2010年6月10日访问。

  3. Peixoto JL。格式良好的多项式回归模型的性质。美国统计学家。1990; 44:26-30。http://www.jstor.org/pss/2684952。2010年6月10日访问。

我通常遵循层次结构,但在某些情况下会偏离层次结构。例如,如果要以几种不同的速度测试轮胎磨损与行驶里程,则模型可能如下所示:

胎面深度=截距+里程+里程*速度

但包括速度的主要影响在物理上是没有意义的,因为轮胎不知道零英里时的速度。

(另一方面,您可能仍要测试速度效果,因为它可能表明“闯入”效果在不同速度下有所不同。另一方面,处理闯入的更好方法是:在零里程和低里程的情况下获取数据,然后测试非线性。请注意,删除拦截项可以视为违反层次结构的特殊情况。)

我还要重申上面的内容,因为它非常重要:作者需要确保他们知道自己的软件是否以数据为中心。如果软件将里程数替换为(里程数-里程数的平均值),则上述轮胎模型在物理上变得毫无意义。

药物稳定性研究也涉及相同的问题(在“顺序存储的稳定性模型”中相切提及,Emil M. Friedman和Sam C. Shum,AAPS PharmSciTech,第12卷,第1期,2011年3月,DOI:10.1208 / s12249-010-9558-x)。


1
谢谢您,这是一个很好的答案,它将帮助我向不具备统计学知识的人进行解释。
djhocking 2012年

1
+1我希望有可能在SO上合并答案。这与上面接受的答案形成了完美的答案。
朱巴卜

9

我有一个真实的案例可以说明这一点。在数据中,变量之一表示group为0控制和1处理。另一个预测变量time period以治疗前0和治疗后1 表示。相互作用是衡量治疗效果的主要指标,治疗组治疗后的差异高于对照组的任何时间影响。主要作用group在进行任何治疗之前测量两组的差异,因此很容易将其设为0(在随机实验中,该值为0,但不是)。第二个主要效果是对没有进行治疗的对照组的前后时间段之间的差异进行测量,因此也可以将交互作用项设为非零值,将其设为0。当然,这取决于事物的编码方式,不同的编码会改变含义,并且在没有主要效果的情况下交互是否有意义。因此,仅在特定情况下适合交互而没有主要影响才有意义。


那么,这是否意味着一切都取决于您的研究目标还是基于您的参数?
2014年

1
@Ben,这取决于您如何对变量进行参数设置(在我的示例中,将每个变量的0/1更改为1/0都会改变解释),您要回答的问题以及您愿意做出的假设。
格雷格·斯诺

ÿ=0+1个X+2ž+3Xž2008年+ÿË一种[Rdü一世Ës
X和Z是连续变量,Z是调节等级。2008年的得分为1,其他年份为0。因此,就像我只接受2008年的观测而没有互动一样。我读到弱,强遗传原理,但并没有清楚的了解

1
@Ben,肯定有可能适合上述模型,该模型基本上表明您认为2008年存在(或可能存在)交互作用,而其他任何一年都没有。如果您对此有理由,那么我认为该模型很好。但这是一个非常不寻常的假设,您可能需要向所有受众证明这一点。
格雷格·雪

1个X
1个X

7

我同意彼得的看法。我认为规则是民俗。我们为什么要设想这样一个情况,即两个变量仅由于交互作用才影响模型。化学上的类比是两种化学物质本身完全是惰性的,但混合在一起会引起爆炸。像不变性这样的数学/统计细节与真实数据的真实问题无关。我只是认为,如果要考虑所有主要影响因素以及大多数(如果不是全部)一阶相互作用,那么在要考虑很多变量的情况下,需要进行大量测试。即使在只有少量变量的小型实验中,我们也几乎永远不会考虑二阶相互作用。这种想法是,交互作用的顺序越高,则产生实际效果的可能性就越小。所以不要 如果主要效果不存在,则不要看一阶或二阶交互。好的规则也许但虔诚地遵循它意味着忽略了例外,而您的问题可能是例外。


8
p

1
我可能会误以为是不变性在现实世界中没有任何意义。我的意图是,某些数学结果可能与特定的实际问题无关。例如,最小二乘估计是在正常误差假设下的最大似然,而高斯马尔科夫定理是在较弱条件下无偏的最小方差,但是当数据中存在异常值时,我将不使用它。出于同样的原因,在医学上说不变性会在没有主要影响的情况下发生时,不变性之类的属性是否应排除相互作用?
Michael Chernick'5

6

[试图回答大多数问题中似乎没有发现的原始问题的一部分:“作为模型选择标准的AIC应该值得信赖吗?”]

应该将AIC用作准则,而不应将其视为福音。

AIC(或BIC或任何类似的“简单”标准用于模型选择)的有效性在很大程度上取决于学习算法和问题。

这样想:AIC公式中复杂度(因子数量)项的目标很简单:避免选择过度拟合的模型。但是,AIC的简单性通常无法捕获问题本身的真正复杂性。这就是为什么还有其他实用技术可以避免过度拟合的原因:例如,交叉验证或添加正则项。

当我使用在线SGD(随机梯度下降)对具有大量输入的数据集进行线性回归时,我发现AIC是模型质量的可怕预测指标,因为它过度惩罚具有大量项的复杂模型。在现实生活中,很多情况下每个术语的影响都很小,但是在一起的情况却很多,它们为结果提供了有力的统计依据。AIC和BIC的模型选择标准会拒绝这些模型,而更喜欢较简单的模型,即使较复杂的模型更为优越。

最后,最重要的是泛化误差(大约:超出样本性能)。在某些相对简单的情况下,AIC可以给您一些模型质量的提示。请注意并记住,现实生活往往比简单公式复杂得多。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.