交互仅在回归分析中有用吗?


11

我一直在回归的背景下阅读交互一词。我们是否还应考虑与不同模型(例如knn或svm)的交互?

如果有,甚至更多的功能,并且可以说有观察值,那么找到有用的交互的通常方法是什么?尝试所有组合吗?还是只使用有意义的组合?501001000


一个答案是,降低VIF的交互作用会很有用。
卡尔,

(+1)提出有用的问题。
卡尔,

Answers:


1

回归模型中明确需要交互,因为该公式本身不包括任何交互。更准确地说,回归模型的输入将始终是线性的,而交互作用是的非线性组合。XiXj

最简单的方法是通过XOR问题,没有任何交互作用的回归模型无法解决此问题,因为它需要非线性组合。

另一方面,KNN和SVM(以及许多其他模型)都是通用函数逼近器。这意味着,它们不仅可以以线性方式组合其输入,而且还可以以任何可能的非线性方式组合其输入。只要有足够的层数或合适的内核,他们就可以根据需要完全“创建”自己的交互。但是,如果您知道或期望特定的交互非常重要,则仍然可以将它们用作输入,以指导模型朝着正确的方向发展。

类似地,基于树的模型可以解释为仅由交互组成。基本上,基于树的模型中的拆分会与所有先前的变量创建特定的交互。

因此,对于足以使用“高功率”模型(即通用函数逼近器)的模型,决定使用哪种交互,您不需要它们,可以让模型发挥自己的魔力。对于其他型号,取决于。有一些可用于指导决策的技术,例如CHAID或逐步回归。CHAID还具有大量功能,对于逐步回归,它可能会因为可能的交互作用而丢失。假设您具有要素,则存在可能的交互作用(不仅计算双向交互,还计算更高阶的交互作用)。N2N


1

没有。

实际上,您可以认为具有多项式内核的SVM在所有功能之间添加了所有(高阶)交互。例如,如果我们有两个特征,则具有二阶多项式的SVM正在执行。(x1,x2)(x12,x22,x1x2)

SVM之所以称为Kernel Trick,是因为它隐式地进行了多项式基础扩展,而计算复杂度却大大降低了。考虑一下对10个要素的10阶多项式展开,手动展开将具有列。但是使用内核技巧,我们可以轻松地做到这一点。1010

因此,不仅交互已被其他模型广泛使用。除了增加交互作用外,其他模型还尝试了更多的功能工程。而不是两列相乘,而是获得了更复杂的特征。


0

交互作用可改善调整后的R平方,用于似然回归的BIC(也可以是AICc等),VIF和ANOVA的F统计量,后者没有使用其个别概率被判断为无贡献的个别参数。

同样很重要但没有问到的是,重新参数化可以显着改善单个变量及其相互作用的影响。但是,BIC,AIC和其他似然性质量度量对于比较不同的重新组合化无效,因此,为此目的留下了调整后的R平方,VIF和ANOVA的F统计量。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.