当比例是自变量时,转换比例的最合适方法是什么?
我以为我理解了这个问题,但是现在我不太确定,我想在继续之前先与其他人核实。 我有两个变量,X和Y。Y是一个比率,并且不受0和1的限制,并且通常呈正态分布。X是一个比例,以0和1为界(从0.0到0.6)。当我运行的线性回归时Y ~ X,我发现,它们X与Y线性关系显着。到现在为止还挺好。 但是后来我进一步调查,开始认为也许X和Y的关系可能比线性关系更曲线。对我来说,它看起来像的关系X,并Y可能接近Y ~ log(X),Y ~ sqrt(X)或者Y ~ X + X^2,或者类似的东西。我有经验上的理由认为该关系可能是曲线关系,但没有理由假设任何一种非线性关系都可能比其他任何一种更好。 我从这里有几个相关的问题。首先,我的X变量采用四个值:0、0.2、0.4和0.6。当我对这些数据进行对数或平方根转换时,这些值之间的间距会失真,因此0值与所有其他值的距离要远得多。由于缺乏更好的询问方式,这就是我想要的吗?我认为不是,因为根据接受的失真程度,我得到的结果非常不同。如果这不是我想要的,应该如何避免? 其次,要对这些数据进行对数转换,我必须在每个X值上加上一些数量,因为您不能采用0的对数。当我增加非常小的数量(例如0.001)时,我会得到非常大的失真。当我添加较大的数量(例如1)时,失真很小。是否有“正确的”数量要添加到X变量中?还是在变量中添加任何内容以X替代选择替代转换(例如,立方根)或模型(例如,逻辑回归)是否不合适? 在这个问题上我几乎找不到的东西让我觉得我应该谨慎行事。对于其他R用户,此代码将创建一些结构类似于我的数据。 X = rep(c(0, 0.2,0.4,0.6), each = 20) Y1 = runif(20, 6, 10) Y2 = runif(20, 6, 9.5) Y3 = runif(20, 6, 9) Y4 = runif(20, 6, 8.5) Y = c(Y4, Y3, Y2, Y1) plot(Y~X)