如果交互消除了我的回归直接影响怎么办?


25

在回归中,交互作用项消除了两个相关的直接影响。我是否放弃互动或报告结果?相互作用不是原始假设的一部分。


6
如果您提供有关实验设计,研究问题和统计模型的更多详细信息,则可能会得到更好的答案。
David LeBauer 2010年

我有调查数据,v1和v2可以预料到结果;但是,v1(二分法)和v2(5个组)之间的交互作用并不显着-并且(我的问题)这也使我的v1和v2直接影响也无关紧要。我在文献中找不到举报此事的例子。

如果v1:v2的交互作用不明显,是否需要将其包含在模型中?
Christopher Aden 2010年

也许这个问题是相关的? stats.stackexchange.com/questions/5184/…–
格伦

另一个可能性是自相矛盾的混淆:示例1:epm.sagepub.com/content/56/3/430.abstract示例2:optimizeprediction.com/files/pdf/V1A19.pdf
user31256 2013年

Answers:


24

我认为这很棘手。正如您所暗示的那样,这里存在着“道德风险”:如果您根本没有看过这种交互,那么您将变得自由而清晰,但是现在您有了丢弃数据的怀疑。

当您从仅主要效果转到交互模型时,关键可能是效果含义的改变。“主要效果”的获得很大程度上取决于治疗方法和对比的编码方式。在R中,默认设置是将与第一个因子水平(以字母顺序排列的名字顺序,除非您已竭尽全力地对它们进行不同编码)相反的处理作为基线水平。

说(为简单起见),对于每个因素,您有两个层次,即“控制”和“ trt”。如果不进行交互,则“ v1.trt”参数的含义(假设处理方式与R中的默认设置相反)是“ v1.control”和“ v1.trt”组之间的平均差”。“ v2.trt”参数的含义是““ v2.control”和“ v2.trt”之间的平均差”。

通过互动,“ v1.trt”是“ v2.control”组中“ v1.control”和“ v1.trt”之间的平均差异,类似地,“ v2.trt”是v2.control中的v2组之间的平均差异“ v1.control”组。因此,如果您在每个对照组中的治疗效果都比较小,但在治疗组中的效果很大,那么您很容易看到自己所看到的。

但是,在没有明显的交互作用项的情况下,我看到这种情况的唯一方法是,如果所有影响都相当微弱(因此,“影响消失”的真正含义是您从p = 0.06变为p = 0.04,跨魔术意义线)。

另一种可能性是您“消耗了太多的自由度”-也就是说,参数估计值实际上并没有改变太大,但是残留误差项由于必须估计另外4个[=(2- 1)*(5-1)]参数,使您的重要术语变得不重要。再说一次,我只希望数据集较小/影响相对较小。

一种可能的解决方案是对对比度进行总结,尽管这也很微妙-您必须确信“平均效果”对您的情况有意义。最好的事情是绘制数据并查看系数,并根据估计的参数了解正在发生的情况。

希望能有所帮助。


4
没有道德风险。包含交互作用的主要效果的计算与没有交互作用的计算完全不同。您必须执行加性模型以报告主要效果,然后无论如何都要将交互包括在单独的模型中。您可以忽略模型中包含交互的主要影响,因为它们并不是真正的主要影响,它们是其他预测变量(包括交互)的特定级别的影响。
约翰

约翰:根据这种逻辑,在评估二次互动/调节效应的模型中,交互作用项是否也会被忽略(即,包括(1)主要效应,(2)这些主要效应之间的相互作用以及(3)二次项主要效果之一和曲线相互作用效果(适度))?
本图

11

X1X2

Y=β0+β12X1X2+ϵ

Y

Y=β0+(β12X1X2)δ

这可以改写

log(Yβ0)=log(β12)+log(X1)+log(X2)+log(δ);

也就是说,如果您以以下形式重新表达变量

η=log(Yβ0)ξ1=log(X1)ξ2=log(X2)ζ=log(δ)N(0,σ2)

那么该模型是线性的,并且可能具有同余残差:

η=γ0+γ1ξ1+γ2ξ2+ζ,

γ1γ2

β0Y

β0β0

Y=(θ1+X1)(θ2+X2)+ϵ

θ1θ2=β0θ1θ2θ1X2θ2X1ϵ

该分析表明,即使在某些应用程序中,也有可能建立一个模型,其中唯一的影响似乎是相互作用。当变量(独立变量,相关变量或两者均以不合适的形式)呈现给您并且其对数是建模的更有效目标时,就会出现这种情况。变量和初始残差的分布提供了确定是否可能需要的线索:变量的偏斜分布和残差的异方差(具体来说,方差与预测值大致成正比)是指标。


嗯 这一切似乎都是合理的,但比我的解决方案更为复杂(对原始问题的评论表明,预测变量都是分类的)。但是像往常一样,答案是“看数据”(或残差)。
本·博克

1
@Ben我同意,但我不明白“更复杂”的含义来自何处,因为在任何回归分析中,单变量分布的分析和事后的残差事后分析都是必不可少的。这里唯一需要做的额外工作就是考虑这些分析的含义。
ub

1
也许是“更复杂”,我的意思是“根据我的经验,我已经看到我在答案(对比编码)中提到的问题比您提到的(非可加性)问题出现的频率更高” –但这确实是关于与我一起工作的数据/人员的类型的陈述,而不是关于世界的陈述。
Ben Bolker

5

在具有两个定量预测变量的常规多元回归中,包括它们之间的相互作用仅意味着将其观察值乘积作为附加的预测变量: ÿ=β0+β1个X1个+β2X2+β3X1个X2=b0+b2X2+b1个+b3X2X1个

这通常会导致较高的多重共线性,因为乘积将与两个原始变量密切相关。使用多重共线性,单个参数估计值在很大程度上取决于要考虑的其他变量-如您的情况。作为对策,在考虑相互作用时,将变量居中通常会降低多重共线性。

我不确定这是否直接适用于您的情况,因为您似乎具有明确的预测变量,但使用术语“回归”而不是“ ANOVA”。当然,后一种情况实质上是相同的模型,但是只有在选择了Ben解释的对比编码方案之后。


5

这可能是解释上的问题,是对所谓的“直接效应”系数实际上是什么的误解。

在具有连续预测变量且没有交互项的回归模型中-也就是说,没有将项构造为其他项的乘积-每个变量的系数都是回归表面在该变量方向上的斜率。无论变量的值如何,它都是常数,并且显然可以衡量该变量的效果。

在具有交互作用的模型(即,使用构造为其他术语的乘积的术语)的情况下,无需进一步限定,就可以对涉及任何交互作用的变量进行解释。当与所讨论的变量进行交互的所有变量的值均为零时,交互作用涉及的变量的系数为回归表面在该变量方向上的斜率,并且该系数的显着性检验指的是回归曲面的斜率仅在预测变量空间的该区域中。由于不需要在该空间的该区域中实际存在数据,因此表观直接效应系数可能与实际观测到数据的预测器空间的区域中的回归表面的斜率几乎没有相似之处。在这种情况下,没有真正的“直接影响”;最好的替代方法可能是“平均效应”:在每个数据点上取并在所有数据点上取平均值的回归曲面在相关变量方向上的斜率。有关此内容的更多信息,请参见为什么以居中变量为中心会适度更改主要影响?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.