如何选择最佳变换以实现线性?


10

我想进行多元线性回归,然后以很少的推算来预测新值。我的响应变量的范围是-2到+7,并且有三个预测变量(范围是+10-+200)。分布几乎是正常的。但是响应和预测变量之间的关系不是线性的,我在图中看到了曲线。例如这样的例子:http : //cs10418.userapi.com/u17020874/153949434/x_9898cf38.jpg

我想应用变换来实现线性。我尝试通过检查不同的函数并查看生成的图来变换响应变量,以查看响应和预测变量之间的线性关系。而且我发现有很多函数可以给我可见的线性关系。例如功能

t1=log(y+2.5)

t2=1log(y+5)

t3=1y+5

t4=1(y+10)3

t5=1(y+3)13等给出类似的结果:http : //cs10418.userapi.com/u17020874/153949434/x_06f13dbf.jpg

在我将预测值进行反变换之后(对于为等)。分布或多或少与正态分布相似。t=1(y+10)3y=1t1310

如何为数据选择最佳转换?是否存在定量(且不是很复杂)的线性度评估方法?证明所选的转换是最好的,或者在可能的情况下自动找到它。

还是唯一的方法是进行非线性多元回归?


我曾尝试改善公式的格式,但可能会引入一些错误-请检查。
彼得·埃利斯

我不相信你。至在数学上不可能同时与范围为上的第六个变量具有线性关系。我认为您可能在计算这些转换时犯了一个错误。t1t50200y
Whuber


2
你是对的。如此广泛的y表达式与r保持线性关系,这真是令人惊讶。感谢您的分享。如果绘制残差图,您会发现看起来最好,然后无需重新表达:。1/(y+5)rplot(lm(1/(y+5)~r))
ub

Answers:


14

这有点像一门艺术,但是总可以尝试一些标准,简单的事情。

首先要做的是重新表达因变量()以使残差正常。在此示例中,这实际上并不适用,在这些示例中,这些点似乎沿着平滑的非线性曲线下降而散布很少。因此,我们继续下一步。y

接下来是重新表达自变量()以使关系线性化。有一个简单的方法可以做到这一点。沿曲线选取三个代表点,最好在两端和中间。从第一数字I读出的有序对 =,,和。除了总是为正以外,没有任何其他信息,一个不错的选择是探索各种幂的Box-Cox变换,通常选择为倍数或,通常介于r(r,y)(10,7)(90,0)(180,2)r r(rp1)/pp1/21/31和。(当接近的极限值为。)如果前两个点之间的斜率等于第二对之间的斜率,则此变换将创建近似线性关系。1p0log(r)

例如,未转换的数据的斜率是 =-和 =。它们是完全不同的:一个大约是另一个的四倍。尝试给出等,结果分别为和:其中一个仅是另一个的两倍,这是一个改进。以这种方式继续(使用电子表格很方便),我发现很好用:斜率现在为和(07)/(9010)0.088(20)/(18090)0.022p=1/2-16.6-32.4p0-7.3-6.6Ŷ=α+β日志[R ÿ(07)/(901/211/2101/211/2)16.632.4p07.36.6,几乎相同的值。因此,您应该尝试使用形式的模型。然后重复:拟合一条线,检查残差,确定的变换以使其近似对称,然后进行迭代。y=α+βlog(r)y

John Tukey在他的经典著作“ 探索性数据分析”(Addison-Wesley,1977年)中提供了详细信息和许多示例。他给出了类似(但涉及程度更高)的过程,以识别方差稳定变换。他作为练习提供的一个样本数据集涉及在各种温度下测量的关于汞蒸气压的百年历史数据。遵循此过程,可以重新发现Clausius-Clapeyron关系;最终拟合的残差可以用原子距离处发生的量子力学效应来解释!y


感谢您对Box-Cox转换的建议。检查lm(1 /(y + 5)〜r)的R平方和其他函数的lm然后比较这些R平方有意义吗?
nadya 2012年

r固定时是有道理的,因为是残差方差的代理。但是,如果您要重新表达(自变量),则毫无价值或会产生误导:请参阅stats.stackexchange.com/questions/13314/…R 2R2rR2
ub

非常感谢您的回答!我不会转换我的自变量
nadya 2012年

@whuber:假设我只有一个变量,那么选择转换的良好经验法则是什么?我有Tukey撰写的EDA书,但是我发现很难找到解决方法。似乎很多地方都集中在纸和纸的重新表达上。您觉得任何页面/章节都很有价值吗?y
Erich Schubert

@Erich这本书的每一点都给人以深深的回报:毕竟,如果您可以用铅笔和纸来做某事,那么您可以对计算机进行编程来做到这一点:-)。通常只用一个变量就可以将其转换为对称的(根据经验分布)。图基称这是“一笔小买卖”。在第3E节“快速查找”中介绍了一种识别这种转换的简单方法。它说明了从N字母摘要一目了然可以学到的内容(Tukey建议使用7或9个字母的摘要)。获得该技能比拥有计算机程序为您进行计算更有价值。
whuber

1

如果您所暗示的响应变量(或更确切地说,将成为响应变量的残差)在原始比例上具有正态分布,则对其进行转换以与其他变量建立线性关系将意味着它不再是正态并且还将改变其方差与平均值之间的关系。因此,从您的描述的那一部分来看,我认为使用非线性回归比转换响应更好。否则,在对响应进行线性变换之后,您将需要一个更复杂的错误结构(尽管这可能是一个判断问题,并且您需要使用图形方法进行检查)。

或者,研究解释变量的转换。除了直接转换,您还可以选择以二次项相加。

更普遍地说,如果没有现有的理论可以建议您将什么作为转换的基础,那么转换更是一门艺术,而不是一门科学。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.