Questions tagged «multicollinearity»

预测变量之间存在很强的线性关系,从而它们的相关矩阵变为(几乎)奇异的情况。这种“疾病状况”使得很难确定每个预测变量所扮演的独特角色:出现估计问题,标准误差增加。双变量非常高的相关预测变量是多重共线性的一个例子。

9
有直观的解释为什么多重共线性是线性回归中的问题吗?
Wiki讨论了当多重共线性是线性回归中的一个问题时出现的问题。基本问题是多重共线性会导致参数估计不稳定,这使得很难评估自变量对因变量的影响。 我理解的问题背后的技术原因(可能无法反转,病态等),但我正在寻找这个问题的一个比较直观的(也许是几何?)的解释。X ' XX′XX′XX' XX′XX′XX' X 关于在线性回归的背景下多重共线性为什么有问题,是否存在一种几何的或也许其他易于理解的解释形式?


1
什么相关使矩阵奇异?奇异或接近奇异意味着什么?
我在不同的矩阵上进行一些计算(主要是在逻辑回归中),并且通常会收到错误“矩阵是奇异的”,我必须返回并删除相关变量。我的问题是,您认为“高度”相关的矩阵是什么?有相关阈值来表示这个词吗?就像某个变量与另一个变量相关联是0.97一样,这是否足以使矩阵奇异? 如果问题很基本,我很抱歉,我找不到任何谈论此问题的参考文献(对任何参考文献的提示将是一个很大的加分!)。

3
在多元回归模型中具有相关的预测变量有什么影响?
我在线性模型课程中了解到,如果两个预测变量相关,并且两个预测变量都包含在模型中,那么一个预测变量将是不重要的。例如,假设房屋的大小和卧室的数量是相关的。当使用这两个预测器预测房屋成本时,可以放弃其中一个,因为它们都提供了大量相同的信息。从直觉上讲,这是有道理的,但是我还有一些技术问题: 当仅在模型中包含一个或两个预测变量时,这种影响如何在回归系数的p值中体现出来? 通过在模型中包括两个预测变量或仅包含一个预测变量,如何影响回归系数的方差? 我怎么知道模型将选择不太重要的预测变量? 仅包含一个或两个预测变量如何改变我的预测成本的价值/差异?


2
随机森林中高度相关的变量会不会扭曲准确性和特征选择?
据我了解,高度相关的变量不会在随机森林模型中引起多重共线性问题(如果我做错了,请纠正我)。但是,另一方面,如果我有太多包含相似信息的变量,那么模型在此集合上的权重会比其他集合高吗? 例如,有两组具有相同预测能力的信息(A,B)。变量,X 2,...全部包含信息A,只有Y包含信息B。当随机采样变量时,大多数树将在信息A上生长,结果信息B不完全被抓?X1X1X_1X2X2X_2X1000X1000X_{1000}

3
其方差膨胀因子I应该是使用:
我正在尝试使用vifR包中的函数解释方差膨胀因子car。该函数既打印广义并且还GVIF 1 /(2 ⋅ DF )。根据帮助文件,这后一个值VIFVIF\text{VIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})} 为了调整置信椭圆的尺寸,该函数还会打印GVIF ^ [1 /(2 * df)],其中df是与该项相关的自由度。 我不明白这个解释在帮助文件的意思,所以我不知道我是否应该使用或GVIF 1 /(2 ⋅ DF )。对于我的模型这两个值有很大的不同(最大GVIF为〜60 ;最大GVIF 1 /(2 ⋅ DF )为〜3)。GVIFGVIF\text{GVIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})}GVIFGVIF\text{GVIF}606060GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})}333 有人可以向我解释我应该使用哪一个,调整置信椭球的尺寸意味着什么?

3
执行变量选择时如何处理多重共线性?
我有一个包含9个连续自变量的数据集。我正在尝试从这些变量中进行选择,以使模型适合单个百分比(因变量)变量Score。不幸的是,我知道几个变量之间将存在严重的共线性。 我尝试使用stepAIC()R中的函数进行变量选择,但是奇怪的是,该方法似乎对方程中列出变量的顺序很敏感... 这是我的R代码(因为它是百分比数据,所以我对得分使用了logit转换): library(MASS) library(car) data.tst = read.table("data.txt",header=T) data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 + Var8 + Var9, data = data.tst) step = stepAIC(data.lm, direction="both") summary(step) 由于某种原因,我发现方程式开头列出的变量最终被stepAIC()函数选择,结果可以通过列出来操纵,例如,Var9首先(跟随波浪号)。 在这里拟合模型的一种更有效(且争议较小)的方法是什么?我使用线性回归并没有真正陷入僵局:我唯一想做的就是能够了解9个变量中的哪一个真正驱动了变量的Score变化。优选地,这将是考虑这9个变量的共线性的强大潜力的某种方法。

3
如何分辨线性和非线性回归模型之间的区别?
我正在阅读有关非线性回归SAS Non Linear的以下链接。通过阅读第一部分“非线性回归与线性回归”,我的理解是下面的方程实际上是线性回归,对吗?如果可以,为什么? y=b1x3+b2x2+b3x+cy=b1x3+b2x2+b3x+cy = b_1x^3 + b_2x^2 + b_3x + c 我是否也了解非线性回归中的多重共线性不是问题?我知道多重共线性可能是线性回归中的一个问题,因此,如果上述模型实际上是线性回归,那么肯定会存在多重共线性吗?

2
仅当包含交互项时,共线性诊断才有问题
我对美国各县进行了回归分析,并正在检查“独立”变量中的共线性。Belsley,Kuh和Welsch的回归诊断建议考虑条件指数和方差分解比例: library(perturb) ## colldiag(, scale=TRUE) for model with interaction Condition Index Variance Decomposition Proportions (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09 1 1.000 0.000 0.000 0.000 0.000 0.001 0.002 0.003 0.002 0.002 0.001 0.000 2 3.130 0.000 0.000 0.000 0.000 0.002 0.053 0.011 0.148 0.231 0.000 …

5
如何测试和避免混合线性模型中的多重共线性?
我目前正在运行一些混合效果线性模型。 我在R中使用软件包“ lme4”。 我的模型采用以下形式: model <- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) 在运行模型之前,我检查了预测变量之间可能的多重共线性。 我这样做是: 建立预测变量的数据框 dummy_df <- data.frame(predictor1, predictor2) 使用“ cor”功能来计算预测变量之间的Pearson相关性。 correl_dummy_df <- round(cor(dummy_df, use = "pair"), 2) 如果“ correl_dummy_df”大于0.80,则我认为预测变量1和预测变量2的相关性太高,因此它们未包含在我的模型中。 在阅读时,将出现更多客观的方法来检查多重共线性。 有人对此有任何建议吗? “方差通胀因子(VIF)”似乎是一种有效方法。 可以使用AED程序包中的函数“ corvif”(非cran)来计算VIF。可以在http://www.highstat.com/book2.htm上找到该软件包。该软件包支持以下书籍: Zuur,AF,Ieno,EN,Walker,N.,Saveliev,AA和Smith,GM2009。《混合效应模型和生态学扩展》 R,第1版。纽约斯普林格。 似乎一般的经验法则是,如果VIF> 5,则预测变量之间的多重共线性较高。 使用VIF是否比简单的Pearson相关性更强大? 更新资料 我在以下位置找到了一个有趣的博客: http://hlplab.wordpress.com/2011/02/24/diagnosing-collinearity-in-lme4/ 博主提供了一些有用的代码,可为来自lme4软件包的模型计算VIF。 我已经测试了代码,并且效果很好。在随后的分析中,我发现模型的多重共线性不是一个问题(所有VIF值均小于3)。鉴于我之前已经发现某些预测变量之间存在较高的皮尔逊相关性,因此这很有趣。

2
PCA在多重共线性下不稳定吗?
我知道在回归情况下,如果您有一组高度相关的变量,由于估计系数的不稳定性(方差趋于零,而行列式趋于零),这通常是“不好的”。 我的问题是,这种“弊端”在PCA情况下是否仍然存在。当协方差矩阵变得奇异时,任何特定PC的系数/载荷/权重/特征向量会变得不稳定/任意/不唯一吗?对于仅保留第一个主要成分而所有其他成分都被视为“噪音”或“其他”或“不重要”的情况,我尤其感兴趣。 我不这么认为,因为您将剩下一些具有零或接近零方差的主要成分。 容易看到,在具有2个变量的简单极端情况下,情况并非如此-假设它们是完全相关的。然后,第一个PC将是精确的线性关系,第二个PC将与第一个PC垂直,所有观测值的所有PC值都等于零(即零方差)。想知道它是否更一般。


1
是否有理由倾向于使用特定的多重共线性度量?
在处理许多输入变量时,我们经常担心多重共线性。有多种多重共线性度量用于检测,考虑和/或传达多重共线性。一些常见的建议是: 特定变量 的倍数[R2Ĵ[RĴ2R^2_j 特定变量 的公差1 − R2Ĵ1个-[RĴ21-R^2_j 特定变量 的方差膨胀因子VIF = 1公差VIF=1个公差\text{VIF}=\frac{1}{\text{tolerance}} 整个设计矩阵的条件号: 最大(特征值(X'X))最小值(特征值(X'X))------------------√最大(特征值(X'X))最小值(特征值(X'X))\sqrt{\frac{\text{max(eigenvalue(X'X))}}{\text{min(eigenvalue(X'X))}}} (在Wikipedia文章中讨论了其他一些选项,在R的上下文中也有关于SO的讨论。) 前三个相互之间是完美的功能,这表明它们之间唯一可能的净利益是心理上的。另一方面,前三个允许您单独检查变量,这可能是一个优点,但是我听说条件编号方法被认为是最好的。 这是真的?最适合什么? 条件数是的理想函数吗?(我想会的。) [R2Ĵ[RĴ2R^2_j 人们是否发现其中之一最容易解释?(我从来没有尝试过在课外解释这些数字,我只是对多重共线性给出了一个宽松的,定性的描述。)

1
在多元回归中如何处理预测变量之间的高度相关性?
我在类似这样的文章中找到了参考: 根据Tabachnick&Fidell(1996),双变量相关性大于.70的自变量不应包含在多元回归分析中。 问题:我在多元回归设计中使用了3个> .80的变量,VIF在.2-.3左右,公差〜4-5。我不能排除其中的任何变量(重要的预测变量和结果)。当我对两个相关系数为.80的结果进行回归分析时,它们均保持显着性,每个预测重要方差,并且在包含的所有10个变量中,这两个变量具有最大的部分和半部分的相关系数(5个对照组)。 问题:尽管相关性很高,我的模型仍然有效吗?任何引用都非常欢迎! 感谢您的回答! 我没有使用Tabachnick和Fidell作为准则,而是在一篇涉及预测变量之间高共线性的文章中找到了此参考。 因此,基本上,对于模型中预测变量的数量,我的案例太少了(许多分类的,伪编码的控制变量-年龄,任期,性别等)-72个案例中的13个变量。所有控件都在其中时,条件索引为〜29,而没有控件时则为〜23(5个变量)。 我不能删除任何变量或使用阶乘分析来组合它们,因为从理论上讲,它们具有自身的意义。现在获取更多数据为时已晚。由于我是在SPSS中进行分析的,因此也许最好是找到岭回归的语法(尽管我以前没有做过,对结果的解释对我来说是新的)。 如果很重要,当我进行逐步回归时,相同的2个高度相关的变量仍然是结果的唯一重要预测指标。 而且我仍然不明白这些变量中每个变量的偏相关性是否重要,这可以解释为什么我将它们保留在模型中(以防无法进行岭回归)。 您是否会说“回归诊断:确定共线性的影响数据和来源/ David A. Belsley,Edwin Kuh和Roy E. Welsch,1980”将有助于理解多重共线性?还是其他参考可能有用?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.