共线变量怎么办

11

免责声明：这是一个家庭作业项目。

我正在尝试根据几个变量提出最佳的钻石价格模型，到目前为止，我似乎已经有了一个很好的模型。但是我遇到了两个显然是共线的变量：

>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
                   Table       Depth Carat.Weight
Table         1.00000000 -0.41035485   0.05237998
Depth        -0.41035485  1.00000000   0.01779489
Carat.Weight  0.05237998  0.01779489   1.00000000

Table和Depth相互依赖，但是我仍然希望将它们包括在我的预测模型中。我对钻石进行了一些研究，发现“表”和“深度”是指钻石的顶部长度和顶部至底部的距离。由于这些钻石的价格似乎与美感相关，而美感似乎与比例有关，因此，我将使用的比率来预测价格。这是处理共线变量的标准程序吗？如果没有，那是什么？ $\frac{Table}{Depth}$

编辑：这是深度〜表的图：在此处输入图片说明

— 迈克·弗林
source

1

+1是一个有趣的问题，但不，这绝对不是处理共线性变量的标准过程。希望有人会给你一个很好的答案，为什么不呢。对于您而言，这可能仍然是一件好事……

— 彼得·埃利斯

3

奇怪的是，-0.4的相关性表明，顶部越长的钻石从顶部到底部越短。这似乎违反直觉-确定正确吗？

— 彼得·埃利斯

通常，只会显示线性相关性吧？如果和非线性相关怎么办？在那种情况下，会不会有类似的大学衔接问题？或者仅仅是线性相关性是一个问题。

c o r

$cor$

T a b l e

$Table$

D e p t h

$Depth$

— curious_cat 2013年

@PeterEllis我被告知这是一个真实的数据集，是的。看一看Depth〜Table的图，可能是因为方差对于高Table值呈扇形散开。

— Mike Flynn

14

这些变量是相关的。

该相关矩阵所隐含的线性关联程度远不足以使变量被认为是共线的。

在这种情况下，我很高兴将所有这三个变量都用于典型的回归应用程序。

检测多重共线性的一种方法是检查相关矩阵的Choleski分解-如果存在多重共线性，则将有一些对角元素接近于零。这是您自己的相关矩阵：

> chol(co)
     [,1]       [,2]       [,3]
[1,]    1 -0.4103548 0.05237998
[2,]    0  0.9119259 0.04308384
[3,]    0  0.0000000 0.99769741

（对角线应始终为正，尽管某些实现在累积的截断错误的影响下可能会略微变为负）

如您所见，最小对角线为0.91，距离零还很远。

相比之下，这是一些几乎共线的数据：

> x<-data.frame(x1=rnorm(20),x2=rnorm(20),x3=rnorm(20))
> x$x4<-with(x,x1+x2+x3+rnorm(20,0,1e-4))
> chol(cor(x))
   x1         x2         x3           x4
x1  1 0.03243977 -0.3920567 3.295264e-01
x2  0 0.99947369  0.4056161 7.617940e-01
x3  0 0.00000000  0.8256919 5.577474e-01
x4  0 0.00000000  0.0000000 7.590116e-05   <------- close to 0.

— Glen_b-恢复莫妮卡
source

谢谢，我想我只是在“相关”和“共线”之间感到困惑

— Mike Flynn

@kingledion请不要使用评论来尝试让个人回答您的问题。

— Glen_b-恢复莫妮卡

6

认为此钻石切割示意图可能会增加对问题的理解。无法将图片添加到评论，因此使其成为答案。...

在此处输入图片说明

PS。@PeterEllis的评论：“顶部越长的钻石从顶部到底部越短”的事实可能是这样的：假设所有未切割的钻石都是大致矩形的（例如）。现在，切工必须使用此边界矩形选择切工。这引入了权衡。如果宽度和长度都增加，则您将选择更大的钻石。可能，但稀有且昂贵。说得通？

— curious_cat
source

2

应避免在线性回归中使用比率。本质上，您要说的是，如果对这两个变量进行了线性回归，则它们将线性相关且没有截距。显然不是这样。参见：http : //cscu.cornell.edu/news/statnews/stnews03.pdf

而且，他们正在测量潜在变量，即钻石的大小（体积或面积）。您是否考虑过将数据转换为表面积/体积度量，而不是同时包含两个变量？

您应该发布该深度和表数据的残差图。无论如何，您在两者之间的相关性可能无效。

— TLJ
source

1

从相关性很难得出表和宽度是否确实相关。接近+ 1 / -1的系数表示它们是共线的。这也取决于样本量。如果您有更多数据，请使用它进行确认。

处理共线性变量的标准过程是消除其中一个...因为知道一个将决定另一个。

— 亚斯巴奎人
source

1

我不确定我是否同意。相关性是r =-。41，我认为这对于相关性而言是一个合理的大小。给定可能的N（基于曲线图），我希望r非常“显着”。表和深度是否足够相关以被称为“共线性”将是一个定义问题（尽管我也不会将其称为有问题的共线性）。最后，除非r 非常接近| 1 |，否则我会避免简单地删除其中一个变量。（例如〜.99）-我无法确定这是否是您的意思。

— gung-恢复莫妮卡

1

是什么让您认为表格和深度导致模型中的共线性？单凭相关矩阵很难说这两个变量会引起共线性问题。关于两个变量对模型的贡献，联合F检验能告诉您什么？正如curious_cat所提到的，当关系不是线性的（可能是基于等级的度量？）时，Pearson可能不是最佳的相关度量。VIF和公差可能有助于量化您可能具有的共线性程度。

我认为您使用它们的比率的方法是适当的（尽管不是解决共线性的方法）。当我看到这个数字时，我立即想到了健康研究中常用的腰臀比。尽管在这种情况下更类似于BMI（体重/身高^ 2）。如果该比率在您的听众中很容易解释和直观，我看不出没有使用它的理由。但是，除非有明确的共线性证据，否则您也许可以在模型中使用这两个变量。

— 托马斯·斯皮德尔
source