识别交互作用的最佳实践是什么?


35

除了从字面上测试模型(x1:x2x1*x2 ... xn-1 * xn)中每个可能的变量组合之外。您如何确定您的独立(希望)变量之间是否应该存在交互作用?

尝试识别交互的最佳实践是什么?有没有可以使用或可以使用的图形技术?


您可以告诉我们一些有关您的数据的信息吗?大小(比照我的答案)和自然(比照加文的答案)
罗宾吉拉德

@罗宾:给他时间起床,布兰登在多伦多;-)
恢复莫妮卡-辛普森

1
@Robin,我希望保留它的一般性。如果您在答复中提供的方法要求对数据的大小或性质进行假设,请说明。我遇到的问题涉及许多不同的建模任务,所有任务都有不同的数据。因此,在这种情况下,我正在寻找有关识别交互作用的一般建议。
布兰登·贝特尔森

Answers:


20

Cox和Wermuth(1996)或Cox(1984)讨论了一些检测相互作用的方法。问题通常是交互术语的通用性。基本上,我们(a)一次拟合(并测试)所有二阶交互项,并且(b)绘制其对应的p值(即,作为的函数的No.项)。然后,我们的想法是查看是否应保留一定数量的交互项:在所有交互项均为零的假设下,p值的分布应均匀(或等效地,散点图上的点应沿一条穿过原点的线)。1p

现在,正如@Gavin所说,适合许多(如果不是全部)交互可能会导致过度拟合,但是从某种意义上说,它也是无用的(某些高阶交互术语通常根本没有意义)。但是,这与解释有关,而不是与相互作用的检测有关,Cox已经在“相互作用的解释:回顾”中提供了很好的综述《应用统计年鉴 2007,1(2),371-385)》-包括上面引用的参考。其他值得研究的研究领域是基因研究中的上位性作用研究,尤其是基于图形模型的方法(例如,一种用于识别基因关联网络中统计相互作用因子的有效方法)。

参考文献

  • Cox,DR和Wermuth,N(1996)。多元相关性:模型,分析和解释。查普曼和霍尔/ CRC。
  • Cox,DR(1984)。互动国际统计评论,52,1–31。

16

我的最佳实践是拟合模型之前考虑要解决的问题。鉴于您正在研究的现象,什么是合理的模型?适合变量和交互的所有可能组合听起来像是对我的数据挖掘。


5
听起来像是在说一句话,还是答案是“思考”?
罗宾吉拉德

2
@Robin-后者。我发现统计建模非常困难(我是一名生态学家,几乎没有经过正规的统计培训,我学到的大部分内容都是自学成才的),但如果我首先考虑问题,确定合理的条件,就会容易得多,建立该模型,进行模型诊断,并尝试进行具有科学意义的互动。
恢复莫妮卡-辛普森

2
@布兰登:如果缺少交互,则残差中的模式将取决于协变量的值。根据协变量绘制残差可能有助于确定在哪里进行交互是合适的。
恢复莫妮卡-辛普森

2
@布兰登:这是标准的模型诊断和探索性绘图技能。我将针对我认为可能是一个交互候选变量的协变量之一绘制残差,条件是(以ggplot2或晶格方式)以我认为涉及相互作用的协变量的值为条件。在每个面板上贴一块黄土平滑剂,看看是否有花纹。取决于您的协变量是什么类型的变量。
恢复莫妮卡-辛普森

2
数据疏??如果您折磨数据足够长的时间,它将承认...
好奇的

16

拟合树模型(即使用R)将帮助您识别解释变量之间的复杂相互作用。在此处阅读第30页的示例。


非常简单,非常有用。也感谢您对Crawley文本的引用!
布兰登·贝特尔森

请注意-不能轻易地将这些类型的相互作用拟合为线性模型。交互仅发生在树的一个分支(或一部分)中。您需要大量数据才能在现实世界数据中使用这些工具。
恢复莫妮卡-辛普森

3
正如@Gavin所说,潜在的陷阱之一是决策树需要大样本量且相当不稳定(这是建议使用套袋和随机森林作为可行替代方案的原因之一)。另一个问题是我们是否寻求二阶或更高阶的交互效应尚不清楚。在前一种情况下,CARTs不是解决方案。无论如何,在任何类型的研究(观察性或对照性研究)中,对于6个变量之间的相互作用的任何解释,我都会非常怀疑。
chl 2010年

7

我完全同意加文的观点,因此将在此回应之前做为答辩,如果您有兴趣安装任何类型的模型,它都应反映正在研究的现象。识别任何和所有影响(以及加文在他说数据挖掘时指的是什么)的逻辑所存在的问题是,您可能适合无限数量的交互作用,变量的二次项或对数据的转换,并且您不可避免地会为数据的某些变化找到“重大”影响。

正如chl所言,这些高阶交互作用实际上没有任何解释,并且经常甚至是低阶交互也没有任何意义。如果您对建立因果模型感兴趣,则应仅包括您认为可能与因变量有关的术语,然后再拟合模型。

如果您认为它们可以提高模型的预测能力,则应在模型选择技术上查找资源,以防止模型过度拟合。


7

n

n

如果您想知道方差的比例是否显着,则必须进行建模(大致上,您需要知道模型的自由度数才能将其与方差进行比较)。

您的变量是离散的还是连续的?是否真的有界(即您不知道最大值)?


感谢您向Sobol指数的方向发展。再次,我想指定我在这里寻找一个通用的而不是一个特定的答案。我并不是在问一组特定的数据,而是要解释我在使用许多不同的数据集时遇到的问题。
布兰登·贝特尔森
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.