对数据使用平方根变换的原因可能是什么?


Answers:


13

通常,参数回归/ GLM假设变量和每个X变量之间的关系是线性的,一旦拟合模型,残差将遵循正态分布,并且残差的大小始终保持不变沿着您的拟合线。当您的数据不符合这些假设时,转换会有所帮助。 YX

它应该是直观的,如果正比于X 2,然后平方根Ÿ linearises这种关系,导致模型能更好地满足假设和解释更多的方差(具有较高的[R 2)。当您遇到以下问题时,平方根Y也会有所帮助:残差的大小随X的值而逐渐增加YX2YR2YX增加(即,沿着拟合线移动的数据点的散布会变得更加明显)。想一想平方根函数的形状:它起初陡峭增加,但随后饱和。因此,应用平方根变换会使较小的数字膨胀,但会使较大的数字稳定。因此,您可以将其视为将值较低的小残差推离拟合线,并将X值较高的大残差推向该线。(这是心理速记,不是正确的数学!)XX

正如Dmitrij和ocram所说,这只是一种可能的转换,在某些情况下会有所帮助,而Box-Cox公式之类的工具可以帮助您选择最有用的一种。我建议养成养成在拟合模型时始终查看残差图与拟合值的关系的习惯(以及正态概率图或残差的直方图)的习惯。您会发现您最终常常可以从这些结果中看到哪种转换将有所帮助。


嘿,谢谢!我知道boxcox的功能,但我想知道sqrt转换有意义的实际原因是什么!谢谢!
MarkDollar 2011年

1
如果误差的方差与级数线性相关,则采用对数转换。如果标准偏差与级数线性相关,则采用平方根变换。该选择与残差的大小无关,因为它与y的大小有关,而与第一和第二力矩的耦合/去耦合有关。
IrishStat,

1
弗雷亚(Freya),+ 1是心理速记>>适当的数学。直觉也是使用L.5度量进行聚类的原因吗?
denis

丹尼斯,您好,恐怕我对群集一无所知。
Freya Harrison

10

平方根变换只是Box-Cox幂变换的一个特例(Pengfi Li的一篇不错的综述,可能会很有用,可以在此处找到),其中并省略了一些居中。λ=0.5

Box-Cox转换的目的是确保线性模型保持的通常假设。即,yN(Xβ,σ2In)

但是,此先验固定值可能不是最佳值(可能不是最佳值)。在R中,您可以考虑使用carpowerTransform中的一个函数,该函数有助于估计参与线性回归的每个变量或您使用的任何数据的Box-Cox转换的最佳值(example(powerTransform)有关详细信息,请参见)。



3

在回归问题中,有时倡导取平方根以使非正态变量看起来像正态变量。对数是另一个常见的可能转换。


0

对于某些数据,使用Bray-Curtis计算的距离矩阵通常不是度量标准,因此会产生负特征值。解决此问题的方法之一是对其进行变换(对数,平方根或双平方根)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.