Questions tagged «interaction»

一个解释变量的效果可能取决于另一个解释变量的值的情况。

9
从随机森林中获取知识
随机森林被认为是黑匣子,但是最近我在想可以从随机森林中获得什么知识? 最明显的是变量的重要性,在最简单的变体中,只需计算变量的出现次数即可完成。 我正在考虑的第二件事是交互。我认为,如果树的数量足够大,则可以测试变量对的出现次数(类似于卡方独立性)。第三件事是变量的非线性。我的第一个想法只是看可变Vs得分的图表,但我不确定这是否有意义。 添加23.01.2012 动机 我想利用这些知识来改进logit模型。我认为(或至少希望如此)可以找到被忽略的相互作用和非线性。


7
在回归模型中,所有交互项都需要它们各自的项吗?
我实际上正在审阅作者将5-6 logit回归模型与AIC进行比较的手稿。但是,某些模型具有交互项,但不包括各个协变量项。这样做有意义吗? 例如(不特定于logit模型): M1: Y = X1 + X2 + X1*X2 M2: Y = X1 + X2 M3: Y = X1 + X1*X2 (missing X2) M4: Y = X2 + X1*X2 (missing X1) M5: Y = X1*X2 (missing X1 & X2) 我一直给人的印象是,如果您有交互项X1 * X2,则还需要X1 + X2。因此,模型1和2会很好,但模型3-5会有问题(即使AIC较低)。这个对吗?它是准则还是更多准则?有没有人有很好的参考资料来解释其背后的原因?我只是想确保我不会在评价中传达任何重要信息。 谢谢您的任何想法,丹

2
在lm中以不同的方式编写交互作用术语?
我有一个问题,即在回归模型中指定交互的最佳方法是什么。考虑以下数据: d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), s = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, …

5
识别交互作用的最佳实践是什么?
除了从字面上测试模型(x1:x2或x1*x2 ... xn-1 * xn)中每个可能的变量组合之外。您如何确定您的独立(希望)变量之间是否应该存在交互作用? 尝试识别交互的最佳实践是什么?有没有可以使用或可以使用的图形技术?

1
GAM中的张量积交互作用的直觉(R中的MGCV程序包)
广义加性模型是例如 的模型。功能是平稳的,并且需要估计。通常用花键惩罚。MGCV是R中的一个软件包,作者(Simon Wood)用R实例写了一本关于他的软件包的书。Ruppert等。(2003年)写了一本关于同一事物的简单版本的更易读的书。 y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + e_i 我的问题是关于这些模型之间的交互。如果我想执行以下操作: 如果我们在OLS地(只是一个beta) ,解释不会有问题。如果我们通过罚样条进行估计,那么在加法上下文中的解释也没有问题。 y=α+f1(x1)+f2(x2)+f3(x1×x2)+eiy=α+f1(x1)+f2(x2)+f3(x1×x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + f_3(x_1\times x_2) + e_i ˚F 3ffff^3f^3\hat{f}_3 但是GAM中的MGCV软件包具有这些称为“张量积平滑”的东西。我用Google搜索“张量积”,然后立即注视着试图阅读我所发现的解释。我不够聪明,或者数学解释得不好,或者两者兼而有之。 代替编码 normal = gam(y~s(x1)+s(x2)+s(x1*x2)) 张量积将通过 what = gam(y~te(x1,x2)) 当我做 plot(what) 要么 vis.gam(what) 我得到一些非常酷的输出。但是我不知道黑匣子内部发生了什么te(),也不知道如何解释上述很酷的输出。就在前一天晚上,我做了一场噩梦,正在开会。我给大家看了一个很酷的图表,他们问我这是什么意思,我不知道。然后我发现我没有衣服。 任何人都可以通过一些机械和直觉来帮助我和后代,以了解这里引擎盖下面的情况吗?理想情况下,要说说正常的加性相互作用情况与张量情况之间的区别?在继续学习数学之前,用简单的英语说所有东西的好处是。

3
R:尽管数据集中没有NaN,随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]
我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN,Inf或NA。但是,当运行随机森林时,我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

3
为什么居中的自变量可以适度改变主效应?
受这个CV线程的启发,我有一个与多元回归和交互相关的问题:使用中心变量分层回归分析的交互项?我们应该集中哪些变量? 在检查调节效果时,我将我的自变量居中并乘以居中的变量,以计算出交互项。然后,我进行回归分析,并检查主要影响和相互作用影响,这可能表明存在中度影响。 如果我重做分析而没有居中,则确定系数(R2R2R^2)显然不会改变,而回归系数(ββ\beta)会改变。这似乎很清楚而且合乎逻辑。 我不了解的是:主要效果的p值会随着居中而发生实质性变化,尽管交互作用并没有(正确)。因此,我对主要影响的解释可能会发生巨大变化-取决于是否居中。(在两次分析中,它仍然是相同的数据!) 有人可以澄清吗?-因为那将意味着使变量居中的选项是强制性的,因此每个人都应该这样做以使用相同的数据获得相同的结果。 非常感谢您分发该问题以及您的全面解释。请放心,非常感谢您的帮助! 对我来说,居中的最大优势是避免多重共线性。建立规则是否居中仍然令人困惑。我的印象是,尽管这样做有一些“风险”,但大多数资源都建议以中心为中心。我再次想指出一个事实,两位处理相同材料和数据的研究人员可能得出不同的结果,因为一个人居中而另一个人居中。我刚刚读过Bortz(他曾是德国和欧洲的教授,并且是统计之星)的书的一部分,他甚至没有提到这种技术。只是指出在涉及变量时要特别注意解释变量的主要作用。 毕竟,当您使用一个IV,一个主持人(或第二个IV)和DV进行回归时,您是否建议居中?



3
用分类变量解释logit回归中的交互项
我从一项调查实验获得的数据中,将受访者随机分配到以下四个组之一: > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 尽管三个治疗组在施加的刺激方面确实略有不同,但我关心的主要区别是对照组和治疗组之间。所以我定义了一个虚拟变量Control: > summary(df$Control) TRUE FALSE 59 191 在调查中,受访者(除其他外)被要求选择他们偏好的两件事中的哪一项: > summary(df$Prefer) A B NA's 152 93 5 然后,在接受治疗组确定的刺激(如果不在对照组中则没有刺激)后,要求受访者在相同的两件事之间进行选择: > summary(df$Choice) A B 149 101 我想知道三个治疗组之一的存在是否对受访者在最后一个问题中做出的选择有影响。我的假设是,接受治疗的受访者比接受治疗的可能性A更大B。 鉴于我正在使用分类数据,因此我决定使用logit回归(如果您认为这是不正确的,请随时鸣叫)。由于受访者是随机分配的,我的印象是我不一定需要控制其他变量(例如,人口统计学),因此我将那些变量留给了这个问题。我的第一个模型如下: > x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit")) > summary(x0) Call: glm(formula …

3
理解辛普森的悖论:安德鲁·盖尔曼(Andrew Gelman)的性别和身高收入递减示例
安德鲁·盖尔曼(Andrew Gelman)在他最近的一篇博客文章中说: 我认为反事实或潜在的结果对于辛普森悖论没有必要。我之所以这样说,是因为人们可以用无法操纵的变量设置辛普森悖论,或者不能直接对其进行操纵。 辛普森悖论是一个更普遍的问题的一部分,如果您添加更多的预测变量,回归系数会改变,但实际上没有必要翻转符号。 这是我在教学中使用的示例,说明了这两点: 我可以进行回归分析,以预测来自性别和身高的收入。我发现性别的系数为 10,000 美元(即,比较一个身高相同的男人和女人,平均而言,这个男人会多赚10,000 美元),而身高系数为 500 美元(即,比较两个男人或两个女人不同高度的平均高大的人会使$ 500多家每高度英寸)。 我如何解释这些系数?我觉得身高系数很容易解释(很容易想象将两个相同性别的不同身高的人进行比较),的确,在不控制性别的情况下,身高回归似乎有些“错误” 身材矮小的人之间的差异可以通过男女之间的差异来“解释”。但是上述模型中的性别系数似乎很难解释:例如,为什么要比较一个身高66英寸的男人和一个女人?那将是一个矮个子男人和一个高个子女人的比较。所有这些推理似乎都是模糊的因果关系,但我认为使用潜在的结果来思考它是没有道理的。 我仔细考虑了一下(甚至在帖子中发表了评论),并认为这里有些事情需要更清楚地理解。 在解释性别之前,还可以。但我看不出比较矮个子和个高个子的女人背后的问题是什么。这是我的观点:实际上,这更有意义(假设男人的平均身高更高)。出于完全相同的原因,您不能比较“矮个子男人”和“矮个子女人”,即收入差异在某种程度上由身高差异来解释。高个子男人和高个子女人也是如此,矮个子女人和高个子男人更是如此(可以这么说)。因此,基本上只有在比较矮个子和高个子的情况下才消除身高的影响(这有助于解释性别系数)。难道不是流行的匹配模型背后的类似基础概念的钟声吗? 辛普森悖论背后的想法是,人口效应可能与亚群体效应不同。从某种意义上说,这与他的观点2和他承认不应单独控制身高(我们所说的是忽略变量偏差)有关。但是我不能将其与关于性别系数的争论联系起来。 也许您可以更清楚地表达它?或评论我的理解?

3
当交互作用不显着时,如何解释主要作用?
我在R中运行了广义线性混合模型,并包括了两个预测变量之间的相互作用。交互作用并不显着,但主要影响(两个预测因素)均如此。现在,许多教科书示例告诉我,如果交互作用显着,则主要作用无法解释。但是,如果您的互动不重要怎么办? 我是否可以得出结论,这两个预测因素会对响应产生影响?还是在不进行交互的情况下运行新模型更好?我不想这样做,因为那样我就必须控制多个测试。

1
可以包含相互作用的双向方差分析的非参数等价情况是什么?
嗨,我正在尝试找到一种双向ANOVA(3x4设计)的非参数等效项,它能够包含交互作用。从我在Zar 1984年的“生物统计学分析”中的阅读可以使用Scheirer,Ray和Hare(1976)中提出的方法来实现,但是,据在线其他帖子推断,该方法不再适用(如果有的话)是)。 有谁知道哪种方法适合这样做,如果是,那么R或Stata中的相应功能是否合适?

5
实验设计中有什么障碍?
关于实验设计中的块概念,我有两个问题:(1)块和因子之间有什么区别?(2)我试图阅读一些书,但有一些不清楚的地方:作者似乎总是认为“阻碍因素”与其他因素之间没有相互作用,这是对的,如果是,为什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.