Answers:
通常,参数回归/ GLM假设变量和每个X变量之间的关系是线性的,一旦拟合模型,残差将遵循正态分布,并且残差的大小始终保持不变沿着您的拟合线。当您的数据不符合这些假设时,转换会有所帮助。
它应该是直观的,如果正比于X 2,然后平方根Ÿ linearises这种关系,导致模型能更好地满足假设和解释更多的方差(具有较高的[R 2)。当您遇到以下问题时,平方根Y也会有所帮助:残差的大小随X的值而逐渐增加增加(即,沿着拟合线移动的数据点的散布会变得更加明显)。想一想平方根函数的形状:它起初陡峭增加,但随后饱和。因此,应用平方根变换会使较小的数字膨胀,但会使较大的数字稳定。因此,您可以将其视为将值较低的小残差推离拟合线,并将X值较高的大残差推向该线。(这是心理速记,不是正确的数学!)
正如Dmitrij和ocram所说,这只是一种可能的转换,在某些情况下会有所帮助,而Box-Cox公式之类的工具可以帮助您选择最有用的一种。我建议养成养成在拟合模型时始终查看残差图与拟合值的关系的习惯(以及正态概率图或残差的直方图)的习惯。您会发现您最终常常可以从这些结果中看到哪种转换将有所帮助。
平方根变换只是Box-Cox幂变换的一个特例(Pengfi Li的一篇不错的综述,可能会很有用,可以在此处找到),其中并省略了一些居中。
Box-Cox转换的目的是确保线性模型保持的通常假设。即,。
但是,此先验固定值可能不是最佳值(可能不是最佳值)。在R中,您可以考虑使用car
库powerTransform
中的一个函数,该函数有助于估计参与线性回归的每个变量或您使用的任何数据的Box-Cox转换的最佳值(example(powerTransform)
有关详细信息,请参见)。
当变量遵循泊松分布时,平方根变换的结果将更接近于高斯。
对于某些数据,使用Bray-Curtis计算的距离矩阵通常不是度量标准,因此会产生负特征值。解决此问题的方法之一是对其进行变换(对数,平方根或双平方根)。