在不包含主要影响的情况下在模型中包括双向交互是否有效?如果您的假设仅是关于相互作用的,那您还需要包括主要影响吗?
在不包含主要影响的情况下在模型中包括双向交互是否有效?如果您的假设仅是关于相互作用的,那您还需要包括主要影响吗?
Answers:
以我的经验,当将所有低阶效应连接到高阶效应时,不仅需要在模型中具有所有低阶效应,而且正确建模(例如允许为非线性的)似乎与之无关的主效应也很重要。感兴趣的互动中的因素。这是因为和x 2之间的交互作用可以替代x 3和x 4的主要效果。有时似乎需要交互,因为它们是共线的,带有省略的变量或省略的非线性(例如,样条曲线)项。
您问它是否有效。让我提供一个常见的例子,其阐明可能会为您建议其他分析方法。
交互的最简单示例是一个模型,该模型具有一个因变量和两个自变量X,Y,形式为
与具有随机变量术语零预期,使用参数α ,β ',γ ',和δ '。它通常值得检查是否δ '接近β ' γ ',因为同一型号的代数等价表达
(其中,,等等)。
从那里,如果有一个理由去假设,我们可以吸收它的误差项ε。这不仅提供了“纯粹的互动”,而且没有固定的期限。 这反过来强烈建议采用对数。残差中的某些异方差性(即与Z较大的值相关的残差的绝对值趋于大于平均值的趋势)也将指向该方向。然后,我们想探索一种替代的公式
随机误差。此外,如果我们预期β X和γ ÿ相比要大1,我们不是仅仅提出模型
这种新的模型具有只是一个单一的参数,而不是四个参数(α,β '等)受到的二次关系(δ ' = β ' γ '),一个相当大的简化。
我并不是说这是必要的,甚至不是唯一的步骤,但是我建议,只要交互作用很重要,通常值得考虑对模型进行这种代数重排。
Tukey的EDA的第10至13章中介绍了一些探索交互模型的出色方法,尤其是只有两个和三个独立变量的模型。
尽管教科书中经常指出,在没有相应的主要效果的情况下,绝不应该在模型中包括交互作用,但是肯定有一些例子可以说是十全十美的。我会给你我能想到的最简单的例子。
假设随机分配给两组的受试者进行了两次测量,一次在基线(即随机化后),一次在T组接受某种治疗,而C组则没有。然后,针对这些数据的重复测量模型将包括测量场合的主要影响(虚拟变量对于基线为0,对于后续变量为1)以及组虚拟变量之间的相互作用项(对于C为0,对于T为1 )和时间假人。
然后,模型截距估计基线时受试者的平均得分(无论他们处于哪个组)。测量时机假人的系数表示对照组在基线和随访之间的变化。交互作用项的系数表示与对照组相比,治疗组的变化有多大/小。
这里,不必包括组的主要作用,因为在基线,由于随机性,各组在定义上是等效的。
当然可以认为,仍应包括对组的主要作用,这样,如果随机化失败,分析将揭示出这一点。但是,这等效于测试两组的基准均值。而且,很多人都不愿对随机研究中的基线差异进行测试(当然,也有很多人发现它有用,但这是另一个问题)。
将主要影响保留在模型中的原因是为了可识别。因此,如果目的是对每种效应进行统计推断,则应将主要效应保留在模型中。但是,如果您的建模目的仅是为了预测新值,则仅在增加交互作用的情况下提高预测准确性是完全合理的。
我将借用书中的一段使用Stata的生存分析介绍由M.Cleves,R.Gutierrez,W.Gould,Y.Marchenko主编的Stata按回答你的问题。
经常阅读到,只有在还包括相应的主要效果的情况下,才应将交互效果包括在模型中,但是单独包括交互效果没有错。[...]研究人员的目标是考虑到当前的问题,而不仅仅是遵循处方,对参数合理合理地设定正确的数据。
我建议这只是模型不确定性的特例。从贝叶斯角度看,您只需按照与对待任何其他种类的不确定性完全相同的方式来处理此问题,方法之一是:
这正是人们通过使用t分位数而不是正常分位数来测试“显着影响”时所做的工作。由于您不确定“真实噪声水平”,因此可以通过在测试中使用更分散的分布来考虑这一点。因此,从您的角度来看,相对于您所提出的问题,“主要影响”实际上是“令人讨厌的参数”。因此,您只需对这两种情况进行平均(或更笼统地说,就是您所考虑的模型)。因此,我会有一个(模糊的)假设:
自然界中有多种过程,仅涉及交互作用和描述它们的规律。例如欧姆定律。例如,在心理学中,您有Vroom(1964)的绩效模型:Performance = Ability x Motivation。现在,您可以期望在该定律成立时发现显着的交互作用。遗憾的是,事实并非如此。您可能会容易地发现两个主要影响和无关紧要的交互作用(有关演示和进一步的说明,请参见Landsheer,van den Wittenboer和Maassen(2006年),《社会科学研究》 35,274-294)。线性模型不太适合检测交互作用。当使用线性模型时,欧姆可能永远找不到他的定律。
结果,难以解释线性模型中的相互作用效应。如果您有预测相互作用效应的理论,则即使无足轻重,也应将其包括在内。如果您的理论将主要影响排除在外,则您可能希望忽略这些主要影响,但您会发现这很困难,因为在真正的数据生成机制仅具有乘法作用的情况下,通常会发现重要的主要影响。
我的回答是:是的,在模型中包含双向交互而不包含主要影响可能是有效的。线性模型是逼近大量数据生成机制的结果的出色工具,但是它们的公式不能轻易地解释为数据生成机制的有效描述。
这是一个棘手的问题,发生在我上一个项目中。我将这样解释:假设您拥有变量A和B,这些变量独立出现,并且从商业角度来看,您认为A和B的交互似乎很好。您包括了很重要的互动,但B失去了意义。您最初将通过显示两个结果来解释模型。结果表明,最初B是有意义的,但是从A来看,它失去了光泽。因此,B是一个很好的变量,但仅当从A的各个级别来看时(如果A是分类变量)。就像从海豹突击队的角度来看,奥巴马是个好领袖。因此,奥巴马的密封将是一个重要的变量。但是当奥巴马独自一人见面时可能并不那么重要。(对奥巴马没有冒犯,只是一个例子。)
如果所讨论的变量是类别变量,则包括交互作用而没有主要影响只是对模型的重新参数化,而参数化的选择取决于您要对模型完成的工作。将连续变量与其他连续变量或分类变量进行交互是一个完全不同的故事。请参阅:参见UCLA数字研究与教育学院的常见问题解答