这有点像一门艺术,但是总可以尝试一些标准,简单的事情。
首先要做的是重新表达因变量()以使残差正常。在此示例中,这实际上并不适用,在这些示例中,这些点似乎沿着平滑的非线性曲线下降而散布很少。因此,我们继续下一步。y
接下来是重新表达自变量()以使关系线性化。有一个简单的方法可以做到这一点。沿曲线选取三个代表点,最好在两端和中间。从第一数字I读出的有序对 =,,和。除了总是为正以外,没有任何其他信息,一个不错的选择是探索各种幂的Box-Cox变换,通常选择为倍数或,通常介于r(r,y)(10,7)(90,0)(180,−2)r r→(rp−1)/pp1/21/3−1和。(当接近的极限值为。)如果前两个点之间的斜率等于第二对之间的斜率,则此变换将创建近似线性关系。1p0log(r)
例如,未转换的数据的斜率是 =-和 =。它们是完全不同的:一个大约是另一个的四倍。尝试给出等,结果分别为和:其中一个仅是另一个的两倍,这是一个改进。以这种方式继续(使用电子表格很方便),我发现很好用:斜率现在为和(0−7)/(90−10)0.088(−2−0)/(180−90)−0.022p=−1/2-16.6-32.4p≈0-7.3-6.6Ŷ=α+β日志([R )ÿ(0−7)/(90−1/2−1−1/2−10−1/2−1−1/2)−16.6−32.4p≈0−7.3−6.6,几乎相同的值。因此,您应该尝试使用形式的模型。然后重复:拟合一条线,检查残差,确定的变换以使其近似对称,然后进行迭代。y=α+βlog(r)y
John Tukey在他的经典著作“ 探索性数据分析”(Addison-Wesley,1977年)中提供了详细信息和许多示例。他给出了类似(但涉及程度更高)的过程,以识别方差稳定变换。他作为练习提供的一个样本数据集涉及在各种温度下测量的关于汞蒸气压的百年历史数据。遵循此过程,可以重新发现Clausius-Clapeyron关系;最终拟合的残差可以用原子距离处发生的量子力学效应来解释!y