我正在尝试仅使用一个预测变量(例如(x,y))将线性模型拟合到某些数据上。数据使得对于较小的x值,y值与直线紧密匹配,但是,随着x值的增加,y值变得更加不稳定。这是此类数据(R代码)的示例
y = c(3.2,3.4,3.5,3.8,4.2,5.5,4.5,6.8,7.4,5.9)
x = seq(1,10,1)
我很想知道是否存在任何幂变换(也许是Box cox?),这使我比简单地进行线性拟合(如下所示)更适合数据。
fit = lm(y ~ x)
我正在尝试仅使用一个预测变量(例如(x,y))将线性模型拟合到某些数据上。数据使得对于较小的x值,y值与直线紧密匹配,但是,随着x值的增加,y值变得更加不稳定。这是此类数据(R代码)的示例
y = c(3.2,3.4,3.5,3.8,4.2,5.5,4.5,6.8,7.4,5.9)
x = seq(1,10,1)
我很想知道是否存在任何幂变换(也许是Box cox?),这使我比简单地进行线性拟合(如下所示)更适合数据。
fit = lm(y ~ x)
Answers:
R已安装的MASS软件包已具有boxcox()
您可以使用的功能:读取数据后,请执行以下操作:
library(MASS)
boxcox(y ~ x)
然后查看生成的图形,该图形以图形方式显示boxcox转换参数的95%置信区间。但是您实际上没有足够的数据(n = 10)来执行此操作,因此结果置信区间几乎从-2变为2 !,最大似然估计约为0(如前所述,为对数转换)。如果您的真实数据有更多观察结果,则应尝试此操作。
正如其他人所说,这种转变实际上是在试图稳定差异。从理论上说,这实际上不是很明显,而是试图最大化基于正态分布的似然函数,该函数假定常数方差。有人可能会认为,最大化基于法线的可能性会尝试使残差的分布标准化,但实际上,对最大化可能性的主要贡献来自于稳定方差。鉴于我们最大化的可能性基于恒定方差正态分布族,所以这可能并不令人惊讶。
我曾经在XLispStat中编写了一个基于滑块的演示,清楚地演示了这一点!
当您具有线性关系,但方差不相等时,通常需要同时变换x和y以获得具有相等方差的线性关系(或仅对未变换的变量使用加权最小二乘回归)。
AVAS程序可用于建议可能的转换。
glm
具有泊松链接函数的框架会削减它吗?
好吧,在R中,您可以尝试以下操作:
library(MASS)
boxcox(y~x)
plot(1/y^2~x) # since the profile likelihood has a maximum near 2
但这确实取决于您“更适合数据”的含义
好吧,如果您对x的所有数据均为非负数,那么您可以使用box cox转换...来估计转换参数lambda的理想值,您可以使用matlab ... http://www.mathworks.in/ help / finance / boxcox.html