共线变量怎么办


11

免责声明:这是一个家庭作业项目。

我正在尝试根据几个变量提出最佳的钻石价格模型,到目前为止,我似乎已经有了一个很好的模型。但是我遇到了两个显然是共线的变量:

>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
                   Table       Depth Carat.Weight
Table         1.00000000 -0.41035485   0.05237998
Depth        -0.41035485  1.00000000   0.01779489
Carat.Weight  0.05237998  0.01779489   1.00000000

Table和Depth相互依赖,但是我仍然希望将它们包括在我的预测模型中。我对钻石进行了一些研究,发现“表”和“深度”是指钻石的顶部长度和顶部至底部的距离。由于这些钻石的价格似乎与美感相关,而美感似乎与比例有关,因此,我将使用的比率来预测价格。这是处理共线变量的标准程序吗?如果没有,那是什么?Ť一种bËdËpŤH

编辑:这是深度〜表的图: 在此处输入图片说明


1
+1是一个有趣的问题,但不,这绝对不是处理共线性变量的标准过程。希望有人会给你一个很好的答案,为什么不呢。对于您而言,这可能仍然是一件好事……
彼得·埃利斯

3
奇怪的是,-0.4的相关性表明,顶部越长的钻石从顶部到底部越短。这似乎违反直觉-确定正确吗?
彼得·埃利斯

通常,只会显示线性相关性吧?如果和非线性相关怎么办?在那种情况下,会不会有类似的大学衔接问题?或者仅仅是线性相关性是一个问题。CØ[RŤ一种bËdËpŤH
curious_cat 2013年

@PeterEllis我被告知这是一个真实的数据集,是的。看一看Depth〜Table的图,可能是因为方差对于高Table值呈扇形散开。
Mike Flynn

Answers:


14

这些变量是相关的。

该相关矩阵所隐含的线性关联程度远不足以使变量被认为是共线的。

在这种情况下,我很高兴将所有这三个变量都用于典型的回归应用程序。

检测多重共线性的一种方法是检查相关矩阵的Choleski分解-如果存在多重共线性,则将有一些对角元素接近于零。这是您自己的相关矩阵:

> chol(co)
     [,1]       [,2]       [,3]
[1,]    1 -0.4103548 0.05237998
[2,]    0  0.9119259 0.04308384
[3,]    0  0.0000000 0.99769741

(对角线应始终为正,尽管某些实现在累积的截断错误的影响下可能会略微变为负)

如您所见,最小对角线为0.91,距离零还很远。

相比之下,这是一些几乎共线的数据:

> x<-data.frame(x1=rnorm(20),x2=rnorm(20),x3=rnorm(20))
> x$x4<-with(x,x1+x2+x3+rnorm(20,0,1e-4))
> chol(cor(x))
   x1         x2         x3           x4
x1  1 0.03243977 -0.3920567 3.295264e-01
x2  0 0.99947369  0.4056161 7.617940e-01
x3  0 0.00000000  0.8256919 5.577474e-01
x4  0 0.00000000  0.0000000 7.590116e-05   <------- close to 0.

谢谢,我想我只是在“相关”和“共线”之间感到困惑
Mike Flynn

@kingledion请不要使用评论来尝试让个人回答您的问题。
Glen_b-恢复莫妮卡

6

认为此钻石切割示意图可能会增加对问题的理解。无法将图片添加到评论,因此使其成为答案。...

在此处输入图片说明

PS。@PeterEllis的评论:“顶部越长的钻石从顶部到底部越短”的事实可能是这样的:假设所有未切割的钻石都是大致矩形的(例如)。现在,切工必须使用此边界矩形选择切工。这引入了权衡。如果宽度和长度都增加,则您将选择更大的钻石。可能,但稀有且昂贵。说得通?


2

应避免在线性回归中使用比率。本质上,您要说的是,如果对这两个变量进行了线性回归,则它们将线性相关且没有截距。显然不是这样。参见:http : //cscu.cornell.edu/news/statnews/stnews03.pdf

而且,他们正在测量潜在变量,即钻石的大小(体积或面积)。您是否考虑过将数据转换为表面积/体积度量,而不是同时包含两个变量?

您应该发布该深度和表数据的残差图。无论如何,您在两者之间的相关性可能无效。


1

从相关性很难得出表和宽度是否确实相关。接近+ 1 / -1的系数表示它们是共线的。这也取决于样本量。如果您有更多数据,请使用它进行确认。

处理共线性变量的标准过程是消除其中一个...因为知道一个将决定另一个。


1
我不确定我是否同意。相关性是r =-。41,我认为这对于相关性而言是一个合理的大小。给定可能的N(基于曲线图),我希望r非常“显着”。表和深度是否足够相关以被称为“共线性”将是一个定义问题(尽管我也不会将其称为有问题的共线性)。最后,除非r 非常接近| 1 |,否则我会避免简单地删除其中一个变量。(例如〜.99)-我无法确定这是否是您的意思。
gung-恢复莫妮卡

1

是什么让您认为表格和深度导致模型中的共线性?单凭相关矩阵很难说这两个变量会引起共线性问题。关于两个变量对模型的贡献,联合F检验能告诉您什么?正如curious_cat所提到的,当关系不是线性的(可能是基于等级的度量?)时,Pearson可能不是最佳的相关度量。VIF和公差可能有助于量化您可能具有的共线性程度。

我认为您使用它们的比率的方法是适当的(尽管不是解决共线性的方法)。当我看到这个数字时,我立即想到了健康研究中常用的腰臀比。尽管在这种情况下更类似于BMI(体重/身高^ 2)。如果该比率在您的听众中很容易解释和直观,我看不出没有使用它的理由。但是,除非有明确的共线性证据,否则您也许可以在模型中使用这两个变量。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.