线性回归中作为独立变量求和的解释比例


13

我熟悉分类变量的概念以及相应的伪变量编码,这些编码使我们能够将一个级别作为基线来避免共线性。我还熟悉如何从此类模型解释参数估计值:相对于基线类别,对于给定拟合类别的预测变量,结果的预测变化。

我不确定的是如何解释一组独立的变量,这些变量之和等于一个。如果我们将所有比例都拟合到模型中,我们将再次具有共线性,因此,我们大概必须将一类作为基线。我还假设我将使用III型SS对该变量的重要性进行整体测试。但是,我们如何解释模型中相对于基线的那些水平的参数估计呢?

一个示例:在邮政编码级别,自变量是变质岩,火成岩和沉积岩的比例。如您所知,这是三种主要的岩石类型,所有岩石都被分类为其中一种。这样,所有这三个部分的比例之和为1。结果是各个邮政编码中的平均ra水平。

例如,如果要拟合变质火成岩比例作为模型中的预测因子,而以沉积物为基线,则通过对两个拟合水平的整体III型SS F-测试可以表明岩石类型总体上是否重要结果的预测因子(平均ra水平)。然后,我可以查看各个p值(基于t分布)以确定一种或两种岩石类型是否与基线显着不同。

但是,当涉及到参数估计时,我的大脑一直想将它们纯粹解释为组(摇滚类型)之间结果的预期变化,而且我不知道如何将它们按比例拟合这一事实纳入其中。

如果的变质估计值为例如0.43,则说明的不是简单的解释,即当岩石变质而沉积时,预测的平均the水平增加了0.43个单位。但是,这种解释也不只是简单地解释了变质岩类型比例的某种单位增加(例如0.1),因为这并没有反映出它也相对于基线(沉积物)以及变化的事实。变质的比例从本质上改变了火成岩模型中其他岩石水平拟合的比例。β

有没有人提供提供这种模型的解释的资源,或者如果没有,您可以在这里提供一个简短的示例吗?


2
+1通常比例与响应没有线性关系。如果重新设置参数,例如可以改善模型,那么它们也将允许自然,简单的解释。您是否检查过数据的线性度?π = EXP λ (π1,π2,,πk)
πi=exp(λi)exp(λ1)++exp(λk)
ub

1
不,但是我想这将是有问题的,尤其是因为许多“比例”实际上以0和1或非常接近0和1的值出现,因此无论如何本质上都是二进制。因此,很可能我们会从中划分出实际的分组(并消除比例),但是假设地,这仍然激发了我对正确解释的兴趣。
梅格2015年

足够公平-这是一个很好的问题。
ub

2
λiπ
log(πi/πj)=λiλj.
πiλiλjkk1λiπi=0πi=1

2
λi=log(πi)
log(πi/πj)=λiλj
exp(λi)exp(λ1)++exp(λk)=πiπ1+π2++πk=π11=πi

Answers:


8

作为后续工作,我认为是正确的答案(对我来说似乎是合理的):我将此问题发布到了ASA Connect列表服务器上,并从Stony Brook的Thomas Sexton得到了以下答复:

“您估算的线性回归模型如下所示:

ln(Radon)=(其他变量中的线性表达式)+ 0.43M + 0.92I

其中,M和I分别代表邮政编码中变质岩和火成岩的百分比。您受到以下方面的约束:

M + I + S = 100

其中S代表邮政编码中沉积岩的百分比。

0.43的解释是,将模型中的所有其他变量保持不变, M的增加1个百分点与ln(Radon)的0.43的增加相关。因此,I的值不能改变,并且在满足约束的同时使M增加1个百分点的唯一方法是使S(省略的类别)减少1个百分点。

当然,这种变化不会在其中S = 0的邮政编码中发生,但是在这种邮政编码中M的减少和S的相应增加将是可能的。”

这是到线程ASA的链接:http : //community.amstat.org/communities/community-home/digestviewer/viewthread? GroupId= 2653& MID= 29924& tab= digestviewer& UserKey= 5adc7e8b-ae4f-43f9-b561-4427476d14

我将其发布为公认的正确答案,但是如果有人要添加任何内容,我仍然愿意进行进一步的讨论。


一种建议是转到ASA线程,因为有很多讨论都对这里提供的答案提出了疑问。
Maxim.K

@ Maxim.K:您是指我上面链接的我自己的ASA线程吗?如果是这样,是的,有很多未解决的警告,而我仍然不能完全确定“正确”的答案(如果存在的话)。这就是为什么我添加限定词的原因:“我将其发布为公认的正确答案,但是如果有人要添加任何内容,我仍然愿意进行进一步的讨论。”
梅格
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.