Questions tagged «multicollinearity»

预测变量之间存在很强的线性关系,从而它们的相关矩阵变为(几乎)奇异的情况。这种“疾病状况”使得很难确定每个预测变量所扮演的独特角色:出现估计问题,标准误差增加。双变量非常高的相关预测变量是多重共线性的一个例子。

1
线性回归中作为独立变量求和的解释比例
我熟悉分类变量的概念以及相应的伪变量编码,这些编码使我们能够将一个级别作为基线来避免共线性。我还熟悉如何从此类模型解释参数估计值:相对于基线类别,对于给定拟合类别的预测变量,结果的预测变化。 我不确定的是如何解释一组独立的变量,这些变量之和等于一个。如果我们将所有比例都拟合到模型中,我们将再次具有共线性,因此,我们大概必须将一类作为基线。我还假设我将使用III型SS对该变量的重要性进行整体测试。但是,我们如何解释模型中相对于基线的那些水平的参数估计呢? 一个示例:在邮政编码级别,自变量是变质岩,火成岩和沉积岩的比例。如您所知,这是三种主要的岩石类型,所有岩石都被分类为其中一种。这样,所有这三个部分的比例之和为1。结果是各个邮政编码中的平均ra水平。 例如,如果要拟合变质和火成岩比例作为模型中的预测因子,而以沉积物为基线,则通过对两个拟合水平的整体III型SS F-测试可以表明岩石类型总体上是否重要结果的预测因子(平均ra水平)。然后,我可以查看各个p值(基于t分布)以确定一种或两种岩石类型是否与基线显着不同。 但是,当涉及到参数估计时,我的大脑一直想将它们纯粹解释为组(摇滚类型)之间结果的预期变化,而且我不知道如何将它们按比例拟合这一事实纳入其中。 如果的变质估计值为例如0.43,则说明的不是简单的解释,即当岩石变质而沉积时,预测的平均the水平增加了0.43个单位。但是,这种解释也不只是简单地解释了变质岩类型比例的某种单位增加(例如0.1),因为这并没有反映出它也相对于基线(沉积物)以及变化的事实。变质的比例从本质上改变了火成岩模型中其他岩石水平拟合的比例。ββ\beta 有没有人提供提供这种模型的解释的资源,或者如果没有,您可以在这里提供一个简短的示例吗?


2
方差-协方差矩阵解释
假设我们有一个线性模型,Model1并vcov(Model1)给出以下矩阵: (Intercept) latitude sea.distance altitude (Intercept) 28.898100 -23.6439000 -34.1523000 0.50790600 latitude -23.643900 19.7032500 28.4602500 -0.42471450 sea.distance -34.152300 28.4602500 42.4714500 -0.62612550 altitude 0.507906 -0.4247145 -0.6261255 0.00928242 对于此示例,此矩阵实际显示什么?我们可以为模型及其独立变量安全地做出哪些假设?

1
多重共线性和样条回归是否存在问题?
当使用自然的(即受限制的)三次样条曲线时,创建的基函数是高度共线性的,当在回归中使用时,似乎会产生非常高的VIF(方差膨胀因子)统计数据,表示多重共线性。当出于预测目的考虑模型的情况时,这是一个问题吗?由于样条线构造的性质,似乎总是这样。 这是R中的示例: library(caret) library(Hmisc) library(car) data(GermanCredit) spl_mat<-rcspline.eval(GermanCredit$Amount, nk=5, inclx=TRUE) #natural cubic splines with 5 knots class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable dat<-data.frame(cbind(spl_mat,class)) cor(spl_mat) OUTPUT: x x 1.0000000 0.9386463 0.9270723 0.9109491 0.9386463 1.0000000 0.9994380 0.9969515 0.9270723 0.9994380 1.0000000 0.9989905 0.9109491 0.9969515 0.9989905 1.0000000 mod<-glm(class~.,data=dat,family=binomial()) #model vif(mod) #massively high OUTPUT: x V2 V3 V4 …

5
标准化自变量是否会降低共线性?
我在Bayes / MCMC上看到了一篇很好的文章。IT建议您对自变量进行标准化将使MCMC(Metropolis)算法更有效,但也可能会降低(多重)共线性。可以吗?这是我应该做的标准工作吗(抱歉)。 Kruschke,2011年,《进行贝叶斯数据分析》。(美联社) 编辑:例如 > data(longley) > cor.test(longley$Unemployed, longley$Armed.Forces) Pearson's product-moment correlation data: longley$Unemployed and longley$Armed.Forces t = -0.6745, df = 14, p-value = 0.5109 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.6187113 0.3489766 sample estimates: cor -0.1774206 > standardise <- function(x) {(x-mean(x))/sd(x)} …

2
当关联最密切的预测变量是二进制时,如何开始建立回归模型
我有数据集包含365观察三个变量即pm,temp和rain。现在,我想检查是否pm响应其他两个变量的变化。我的变量是: pm10 =响应(取决于) temp =预测变量(独立) rain =预测变量(独立) 以下是我的数据的相关矩阵: > cor(air.pollution) pm temp rainy pm 1.00000000 -0.03745229 -0.15264258 temp -0.03745229 1.00000000 0.04406743 rainy -0.15264258 0.04406743 1.00000000 问题是,当我研究回归模型的构建时,有人写道,可加方法应从与响应变量最相关的变量开始。在我的数据集中,rain它与pm(与相比temp)高度相关,但是同时它也是一个虚拟变量(rain = 1,norain = 0),所以现在我有了从哪里开始的线索。我为问题附加了两个图像:第一个是数据的散点图,第二个图像是pm10vs. 的散点图rain,我也无法解释pm10vs.的散点图rain。有人可以帮我怎么开始吗?

3
检测共线性的不同方法的优点是什么?
我想检测共线性是否是我的OLS回归中的问题。我知道方差膨胀因子和条件指数是两种常用的度量,但是我发现很难找到每种方法的优劣或分数应该是确定的任何东西。 指出执行方法和/或适当分数的突出来源将非常有用。 在“是否有理由偏爱多重共线性的特定度量?”时提出了类似的问题。但是我理想的是可以引用一个参考。

5
共线变量怎么办
免责声明:这是一个家庭作业项目。 我正在尝试根据几个变量提出最佳的钻石价格模型,到目前为止,我似乎已经有了一个很好的模型。但是我遇到了两个显然是共线的变量: >with(diamonds, cor(data.frame(Table, Depth, Carat.Weight))) Table Depth Carat.Weight Table 1.00000000 -0.41035485 0.05237998 Depth -0.41035485 1.00000000 0.01779489 Carat.Weight 0.05237998 0.01779489 1.00000000 Table和Depth相互依赖,但是我仍然希望将它们包括在我的预测模型中。我对钻石进行了一些研究,发现“表”和“深度”是指钻石的顶部长度和顶部至底部的距离。由于这些钻石的价格似乎与美感相关,而美感似乎与比例有关,因此,我将使用的比率来预测价格。这是处理共线变量的标准程序吗?如果没有,那是什么?Ť一个b 升ëd Ë p 吨ħŤ一种b升ËdËpŤH\frac{Table}{Depth} 编辑:这是深度〜表的图:

2
分类变量之间的共线性
关于连续预测变量的共线性有很多,但我在分类预测变量上找不到太多。我的数据如下所示。 第一个因素是遗传变量(等位基因计数),第二个因素是疾病类别。显然,基因在疾病之前,并且是显示导致诊断的症状的因素。但是,像SPSS心理中通常使用的II型或III型平方和的常规分析会失去效果。输入适当的订单(因为它与订单有关)时,我进行平方和分析的类型就会选择它。此外,疾病过程中可能存在与基因无关的额外成分,这些成分与II型或III型不能很好地鉴定,请参阅下面的anova (lm1) vs lm2或Anova。 示例数据: set.seed(69) iv1 <- sample(c(0,1,2), 150, replace=T) iv2 <- round(iv1 + rnorm(150, 0, 1), 0) iv2 <- ifelse(iv2<0, 0, iv2) iv2 <- ifelse(iv2>2, 2, iv2) dv <- iv2 + rnorm(150, 0, 2) iv2 <- factor(iv2, labels=c("a", "b", "c")) df1 <- data.frame(dv, iv1, iv2) library(car) chisq.test(table(iv1, …

1
高相关变量的和与差几乎不相关的参考
在我写的一篇论文中,我对和而不是和进行了随机建模,以有效消除和高度相关且方差相等(如在我的应用程序中)时出现的问题。裁判员希望我提供参考。我可以很容易地证明这一点,但是作为应用期刊,他们更喜欢引用简单的数学推导。X − Y XX+ YX+YX+YX- ÿX−YX-YXXXX YÿYYXXXÿYY 有没有人有适当建议的建议?我以为Tukey的EDA书(1977)中有关于总和与差异的内容,但我找不到。


1
广义加性模型的方差膨胀因子
在用于线性回归的常规VIF计算中,每个自变量/解释变量在普通最小二乘回归中均被视为因变量。即XjXjX_j Xj=β0+∑i=1,i≠jnβiXiXj=β0+∑i=1,i≠jnβiXi X_j = \beta_0 + \sum_{i=1, i \neq j}^n \beta_i X_i 的值被存储用于每个的回归和VIF由下式确定R2R2R^2nnn VIFj=11−R2jVIFj=11−Rj2 VIF_j = \frac{1}{1-R^2_j} 对于特定的解释变量。 假设我的广义加性模型采用以下形式: Y=β0+∑i=1nβiXi+∑j=1msj(Xi).Y=β0+∑i=1nβiXi+∑j=1msj(Xi). Y=\beta_0+ \sum_{i=1}^n \beta_iX_i + \sum_{j=1}^m s_j(X_i) . 这种类型的模型是否有等效的VIF计算?有什么方法可以控制平滑项来测试多重共线性吗?sjsjs_j

3
多元回归中解释变量之间的线性关系
我正在阅读《使用R:基于示例的方法进行数据分析和图形》的多元回归一章,感到有点困惑,以至于发现它建议检查解释变量之间的线性关系(使用散点图),如果没有,牛逼的任何,转化他们,使他们也变得更加线性相关的。以下是一些摘录: 6.3拟合多元回归模型的策略 (...) 检查涉及所有解释变量的散点图矩阵。(在这一点上,包括因变量是可选的。)首先看一下解释变量相互之间的关系图中是否存在非线性的证据。 (...) 这一点确定了一种模型搜索策略- 搜索模型,其中解释变量之间的回归关系遵循“简单”线性形式。因此,如果某些成对图显示出非线性的证据,请考虑使用变换来给出更接近线性的关系。尽管不一定可以证明采用这种策略可以对回归关系进行充分建模,但出于以下原因,这是开始进行搜索时遵循的良好策略。 (...) 如果解释变量之间的关系近似线性,也许是在变换之后,则可以放心地将预测变量对响应变量的图进行解释。 (...) 可能无法找到一个或多个说明变量的变换,以确保面板中显示的(成对)关系呈现线性。这就会产生问题无论对于诊断地块解释为任何拟合回归方程的系数的解释在拟合方程。参见Cook和Weisberg(1999)。 我不应该担心因变量之间的线性关系(由于存在多重共线性的风险)而不是积极地追求它们吗?具有近似线性相关变量的优点是什么? 作者将在本章稍后部分讨论多重共线性的问题,但此建议似乎与避免多重共线性有关。

2
多重共线性是否隐含在分类变量中?
我注意到,在修补多元回归模型时,在分类变量的类别内(当然,在排除参考类别之后),有一个很小但引人注目的多元共线性效应,以方差膨胀因子来衡量。 例如,假设我们有一个包含连续变量y和一个名义分类变量x的数据集,该变量具有k个可能的互斥值。我们将这可能的值编码为0/1虚拟变量。然后,我们运行回归模型。虚拟变量的VIF分数结果为非零。实际上,随着类别数量的增加,VIF也随之增加。使虚拟变量居中似乎不会更改VIF。x 1,x 2,… ,x k y = b 0 + b 1 x 1 + b 2 x 2 + ⋯ + b k - 1 x k - 1 k - 1ķkkX1个,X2,… ,xķx1,x2,…,xkx_1, x_2,\dots ,x_kÿ= b0+ b1个X1个+ b2X2+ ⋯ + bk − 1Xk − 1y=b0+b1x1+b2x2+⋯+bk−1xk−1y = b_0 + …

3
在存在多重共线性的情况下确定线性回归系数的统计显着性
假设我有一堆人口规模不同的城市,我想看看城市中酒类商店的数量与DUI的数量之间是否存在正线性关系。我根据估计的回归系数的t检验确定这种关系是否重要。 现在显然是流行音乐。城市的规模将与DUI的数量以及酒类商店的数量呈正相关。因此,如果我仅对酒类商店进行简单的线性回归,并查看其回归系数是否在统计上有意义,那么我可能会遇到多重共线性问题,并高估了酒类商店对DUI的影响。 我应该使用两种方法中的哪一种来纠正此问题? 我应该将城市中的酒类商店数量除以其人口数,以获得人均酒类商店价值,然后以此为基础进行回归。 我应该对白酒储存量和大小进行回归,然后查看在控制大小时白酒储存系数是否显着。 还有其他方法吗? 老实说,我无法确定哪个看起来更明智。我在他们之间摇摆不定,这取决于我想到的那一个,我是否能够使自己确信这是正确的方法。 一方面,人均酒类商店似乎是使用的正确变量,因为DUI是由个人实施的,但是从统计角度来看,这似乎并不十分严格。另一方面,控制大小似乎在统计上是严格的,但是是间接的。此外,如果在计算了人均酒量变量后重新定标,则两种方法之间的回归系数非常相似,但是方法1会产生较小的p值。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.